在科幻小說(shuō)中,機器人要么是與人類(lèi)對立,要么是變異成壞人。但如今現實(shí)生活中機器人的應用大為不同。機器正代替人眼來(lái)看世界并加以行動(dòng),它們所到之處讓生活變得智慧化。
通過(guò)攝取圖像模擬人眼的視覺(jué)功能,提取信息然后加以分析處理,機器視覺(jué)已成為智慧城市過(guò)程中不可或缺的“第三只眼睛”,其應用領(lǐng)域也從食品生產(chǎn)流程管理、農業(yè)種植控制、醫學(xué)檢測等方面的個(gè)體需求到交通及安防等公共項目。其中我司深圳朗銳智科實(shí)業(yè)有限公司研發(fā)的雞蛋收集線(xiàn)計數器,就被投放到家禽養殖場(chǎng)使用,在使用過(guò)程中可以提高效率和降低成本。
隨著(zhù)機器視覺(jué)的發(fā)展與進(jìn)步,3D機器視覺(jué)迎來(lái)了自動(dòng)化行業(yè)的巨大機遇,主要用于質(zhì)量保證和檢測。據數據預測,2017年到2022年期間的復合年增長(cháng)率將達到11.07%,2022年全球3D機器視覺(jué)市場(chǎng)規模有望達到21.3億美元。
在機器視覺(jué)頂會(huì )中,差不多會(huì )有半壁江山那么多的論文都是跟3D有關(guān)。前沿探索可謂瘋狂進(jìn)行,那么有哪些三維圖像+機器視覺(jué)的新技術(shù)趨勢,今天正隱藏在未知迷霧中眺望這個(gè)世界?今天我們來(lái)說(shuō)幾種很有科幻感的技術(shù)突破點(diǎn)。說(shuō)不定這些能力明年就會(huì )出現在你的手機、VR設備和無(wú)人機中,又或許即將成為某個(gè)被資本瘋狂親吻的創(chuàng )業(yè)熱潮。
超大場(chǎng)景的3D數據感知
3D機器視覺(jué)包括很多方面,既有讓智能體去理解3D數據,也包括如何通過(guò)機器視覺(jué)的解決方案,去獲取3D模型數據。
傳統意義上的3D數據獲取,或者稱(chēng)其為3D感知技術(shù),一般來(lái)說(shuō)可以利用多角度拍照或者深度傳感器的方式實(shí)現3D數據收集。這種技術(shù)的局限在于,收集的3D數據不能太大。
然而在3D資料要求不斷升級的今天,對于超大場(chǎng)景的3D數據感知,正在成為一個(gè)熱門(mén)議題。比如無(wú)人駕駛中使用的城市高精地圖,就可以看做一個(gè)個(gè)超大3D場(chǎng)景的拼接。智能城市領(lǐng)域運用到的很多城市數據推演,也要根植于對城市3D場(chǎng)景的收集。
機器視覺(jué)正在為超大場(chǎng)景的3D數據感知提供很多新的方法。比如自動(dòng)化的成像方法,像視覺(jué)SLAM在線(xiàn)處理連續幀的圖像,實(shí)現實(shí)時(shí)重建巨大3D場(chǎng)景。再比如說(shuō)對航拍數據進(jìn)行點(diǎn)云分割和點(diǎn)云數據的語(yǔ)義理解,幫助快速低成本獲取城市3D數據。
總體來(lái)看,今天超大場(chǎng)景的3D數據感知,有三個(gè)主要應用方向,很可能分別成為各自技術(shù)領(lǐng)域中新的投資和創(chuàng )業(yè)熱點(diǎn):
1、建筑物的3D高精度模型,運用在工程監理、智能設計、物流和智能城市領(lǐng)域。
2、高精地圖與3D數據感知的結合,這是無(wú)人駕駛的重要一環(huán)。
3、室內外一體的3D建模,這對于智能家居設計、環(huán)境監控、VR/AR體驗來(lái)說(shuō)都有重要幫助。
手機與3D視覺(jué)進(jìn)入蜜月期
目前,智能手機已經(jīng)成為AR/AR以及計算視覺(jué)等先進(jìn)技術(shù)發(fā)展的最大載體,人臉識別、AR功能成為當前智能手機發(fā)展的熱點(diǎn),其實(shí)無(wú)論是在A(yíng)R/VR領(lǐng)域還是識別技術(shù),都離不開(kāi)計算視覺(jué)。計算視覺(jué)領(lǐng)域其實(shí)就是運用計算機技術(shù)對生物視覺(jué)的一種模擬,其中深度識別和多維成像使其核心技術(shù)。
深度識別是計算視覺(jué)的關(guān)鍵前提,能夠對生物視覺(jué)進(jìn)行識別,其中包括當前流行的蘋(píng)果人臉識別技術(shù),多維成像將包括目前的3D顯示結局即對圖片以及視頻等進(jìn)行3D畫(huà)面的再現。利用深度識別和多維成像技術(shù),除了還原我們肉眼所能看到的畫(huà)面,未來(lái)隨著(zhù)技術(shù)的不斷融合,深度識別技術(shù)還能是立體的展示我們肉眼所看不到的東西。例如,未來(lái)的智能手機可以在陽(yáng)光下利用深度識別技術(shù)和人工智能技術(shù)的分析,識別紫外線(xiàn)的強度,提醒我們的防曬護膚。
AR/VR中的眼球追蹤技術(shù)
隨著(zhù)技術(shù)的進(jìn)步,我們現在已經(jīng)能夠利用人類(lèi)眼睛進(jìn)行虹膜識別,虹膜識別相較面部識別、指紋識別都更加有效和安全,很多手機廠(chǎng)商開(kāi)始開(kāi)發(fā)使用虹膜識別功能。
除了虹膜識別之外,還有眼球追蹤技術(shù)。所謂眼球追蹤,是指一項技術(shù)能夠追蹤眼球的運動(dòng),并利用這種眼球運動(dòng)來(lái)增強某個(gè)產(chǎn)品或服務(wù)的體驗。
眼球追蹤技術(shù)曾經(jīng)在智能手機領(lǐng)域火了一陣,這可能要追溯到2013年Galaxy S4手機率先搭載了眼球追蹤功能,這項功能主要應用在視頻播放上面。舉個(gè)例子,如果你正在觀(guān)看一個(gè)視頻,然后你身后的同學(xué)拍了一下你肩膀,在你轉過(guò)頭的時(shí)候,由于你的眼睛已經(jīng)不再看著(zhù)屏幕,視頻會(huì )自動(dòng)暫停,而當你回過(guò)頭來(lái),視頻會(huì )自動(dòng)繼續播放。不需要你用手去點(diǎn)擊暫停和播放;或者你在手機上看網(wǎng)頁(yè),當你眼睛看到屏幕底部的時(shí)候,網(wǎng)頁(yè)會(huì )自動(dòng)翻頁(yè)。同年,LG也推出了一款擁有眼球追蹤功能的LG Optimus G Pro手機。
可惜,眼球追蹤未能在手機領(lǐng)域掀起大風(fēng)大浪,原因大概有兩點(diǎn)。首先用戶(hù)沒(méi)有需求,一款智能手機的平均尺寸大約只有5英寸,在這么一丁點(diǎn)兒大的地方,人們更喜歡直接用手指進(jìn)行交互,何況手機絕大部分功能都是使用手指進(jìn)行交互,所以也不多播放/暫停這個(gè)環(huán)節;第二個(gè)原因就是,當時(shí)技術(shù)不太成熟,分辨率低,識別不夠精準,導致有用戶(hù)覺(jué)得眼睛累。
3D視覺(jué)助力機器人產(chǎn)業(yè)智能化轉型
3D視覺(jué)作為一項激動(dòng)人心的新技術(shù),早已經(jīng)出現在微軟Kinect、英特爾RealSense等消費級產(chǎn)品中。近幾年,隨著(zhù)硬件端技術(shù)的不斷進(jìn)步,算法與軟件層面的不斷優(yōu)化,3D深度視覺(jué)的精度和實(shí)用性得到大幅提升,使得“3D深度相機+手勢/人臉識別”具備了大規模進(jìn)入移動(dòng)智能終端的基礎。作為全球手機當之無(wú)愧的龍頭,蘋(píng)果率先大規模采用3D視覺(jué)技術(shù),將徹底激活3D視覺(jué)市場(chǎng),開(kāi)啟全新時(shí)代。
3D視覺(jué)技術(shù)不僅僅在識別精度方面大幅提升,更重要的是打開(kāi)了更加廣闊的人工智能應用空間。隨著(zhù)機器視覺(jué)、人工智能、人機交互等科學(xué)技術(shù)的發(fā)展,各種高智能機器人開(kāi)始走進(jìn)現實(shí),3D視覺(jué)技術(shù)成為助力制造業(yè)實(shí)現“智能化”轉型的好幫手。
大家耳熟能詳的深度攝像頭技術(shù)和應用有英特爾的RealSense、微軟的 Kinect、蘋(píng)果的 PrimeSense、以及谷歌的Project Tango等。不過(guò)可以看到這一技術(shù)的研究和開(kāi)發(fā)多為國外公司,國內計算視覺(jué)方面的公司或創(chuàng )業(yè)團隊屈指可數,技術(shù)上的壁壘依舊較大。
關(guān)于目前市場(chǎng)上的深度相機的技術(shù)方案主要有以下三種: 雙目被動(dòng)視覺(jué)、結構光、TOF。雙目被動(dòng)視覺(jué)主要是利用兩個(gè)光學(xué)攝像頭,通過(guò)左右立體像對匹配后,再經(jīng)過(guò)三角測量法來(lái)得到深度信息。此算法復雜度高,難度很大,處理芯片需要很高的計算性能,同時(shí)它也繼承了普通RGB攝像頭的缺點(diǎn):在昏暗環(huán)境下以及特征不明顯的情況下并不適用。
結構光的原理是通過(guò)紅外激光發(fā)射相對隨機但又固定的斑點(diǎn)圖案,這些光斑打在物體上后,因為與攝像頭距離不同,被攝像頭捕捉到的位置也不盡相同。然后先計算拍到的圖的斑點(diǎn)與標定的標準圖案在不同位置的位移,引入攝像頭位置、傳感器大小等參數計算出物體與攝像頭的距離。
微軟在Kinect二代采用的是ToF的技術(shù)。ToF是Time of flight的簡(jiǎn)寫(xiě),直譯為飛行時(shí)間的意思。所謂飛行時(shí)間法3D成像,是通過(guò)給目標連續發(fā)送光脈沖,然后用傳感器接收從物體返回的光,通過(guò)探測光脈沖的飛行(往返)時(shí)間來(lái)得到目標物距離。相比之下,結構光技術(shù)的優(yōu)勢是比ToF更加成熟,成本更低,更加適合用在手機等移動(dòng)設備上。
深度攝像頭是所有需要三維視覺(jué)設備的必需模塊,有了它,設備就能夠實(shí)時(shí)獲取周?chē)h(huán)境物體三維尺寸和深度信息,更全面的讀懂世界。深度攝像頭給室內導航與定位、避障、動(dòng)作捕捉、三維掃描建模等應用提供了基礎的技術(shù)支持,成為現今行業(yè)研究熱點(diǎn)。如今iPhone X搭載3D深度攝像頭勢必會(huì )大力推動(dòng)機器視覺(jué)領(lǐng)域的發(fā)展,助力機器人產(chǎn)業(yè)實(shí)現完美“智能化轉型”。
更好的深度傳感器解決方案
還有一個(gè)機器視覺(jué)技術(shù)和3D的交匯,主要發(fā)生在無(wú)人機領(lǐng)域。
無(wú)人機今天進(jìn)行測繪和航拍時(shí),必須附帶對空間的理解能力,否則拍照不準事小,撞了南墻事大。而這個(gè)能力主要來(lái)自于攝像頭和傳感器進(jìn)行空間閱讀。
隨著(zhù)消費級無(wú)人機的不斷升級,人們對無(wú)人機拍攝效果要求也不斷升高。無(wú)人機必須不斷在更遠的距離、更極端的天氣、更復雜的運動(dòng)中拍攝畫(huà)面。然而傳統的傳感系統解決方案已經(jīng)快要跟不上用戶(hù)的期許。
今天的消費級無(wú)人機,一般采取兩種感知解決方案,一種是雙目視覺(jué)技術(shù),比如大疆的某些產(chǎn)品;一種是結構光傳感器,比如微軟的Kinect。而這兩種主流方案都是有一定局限的,比如感知范圍都有限,難以完成遠距離作業(yè)。再比如雙目視覺(jué)技術(shù)在黑夜中會(huì )失靈,所以無(wú)人機夜拍一直是個(gè)大坑,然而結構光技術(shù)應對不來(lái)強光,一到中午無(wú)人機就石樂(lè )志也是很心塞的。
更好的解決方案,在于將傳感器與智能攝像頭結合起來(lái),達成可以適應不同天候與天氣,并且可以長(cháng)距離感知的新型傳感系統解決方案。
今天,用機器視覺(jué)技術(shù)中的很多算法,協(xié)調不同的傳感設備工作,讓無(wú)人機變成“多眼無(wú)人機”,正在成為流行的解決方案。機器視覺(jué)算法大量加入無(wú)人機傳感器,還可能帶來(lái)軌跡拍攝能力提升,讓無(wú)人機獲得拍攝整體環(huán)境,或者精準捕捉動(dòng)態(tài)物體,比如說(shuō)運動(dòng)中的動(dòng)物和車(chē)輛的能力。
以上幾個(gè)技術(shù)趨勢,都可能成為機器視覺(jué)和圖形學(xué)應用的下一步熱點(diǎn)。這個(gè)領(lǐng)域看似偏門(mén),事實(shí)上卻能影響今天科技市場(chǎng)中的風(fēng)吹草動(dòng)。
讓機器看到立體世界的游戲才剛剛開(kāi)始,機器與人類(lèi)在某一天可以用同樣的視角相互凝視,或許才是這個(gè)故事的終點(diǎn)。