數(shù)據(jù)修復(fù),用手機(jī)實(shí)現(xiàn)高精度人臉...
579
2023-11-02
如何得到一個(gè)人的高精度面部三維模型?
通常情況下,對(duì)某個(gè)人的臉進(jìn)行精確的三維重建需要昂貴的設(shè)備和專業(yè)知識(shí)技能,比如要用攝影棚、相機(jī)、3D 掃描儀等等,各種各樣的工作都集中在使用光度學(xué)立體或多視圖立體技術(shù)來進(jìn)行面部結(jié)構(gòu)重建。
現(xiàn)在,卡內(nèi)基梅隆大學(xué)(CMU)的研究人員使用普通智能手機(jī)錄制的視頻完成了這項(xiàng)壯舉。用智能手機(jī)拍攝臉部正面和側(cè)面的連續(xù)視頻,在深度學(xué)習(xí)算法的幫助下分析這些數(shù)據(jù),成功對(duì)多個(gè)面部進(jìn)行了數(shù)字重建,實(shí)驗(yàn)結(jié)果表明,他們的方法可以達(dá)到亞毫米精度,堪比專業(yè)化的處理。
圖|CMU 的方法(c)與傳統(tǒng)最先進(jìn)的方法(d)效果對(duì)比(來源:CMU)本研究項(xiàng)目的成員之一、CMU 機(jī)器人研究所副研究員西蒙 · 露西(Simon Lucey)表示,面部的三維重建一直是計(jì)算機(jī)視覺和圖形領(lǐng)域的一個(gè)公開問題,因?yàn)槿藗儗?duì)面部特征的外觀非常敏感,即使重建過程中出現(xiàn)輕微異常,也可能使最終結(jié)果看起來與現(xiàn)實(shí)差別較大,高水平的細(xì)節(jié)是個(gè)難點(diǎn),也是栩栩如生的關(guān)鍵。
如今,數(shù)字臉可以用來構(gòu)建游戲角色或 AR、VR 的化身,也可以用于動(dòng)畫、影視制作、社交、生物識(shí)別甚至醫(yī)療等領(lǐng)域,商業(yè)空間可謂十分廣泛,而整個(gè)制作過程或許會(huì)越來越便捷。
研究人員在慢動(dòng)作拍攝中使用了 iPhone X,高幀速率的慢動(dòng)作是原始數(shù)據(jù)采集的關(guān)鍵之一,視頻以 120 幀 / 秒的速度拍攝,每段時(shí)長 15-20 秒,背景條件是無約束的,但需要是靜態(tài)的場景,拍攝對(duì)象最好保持一種靜態(tài)的表情。
錄像可以由拍攝對(duì)象自己錄制,也可以由助手錄制,之后視頻會(huì)分為三個(gè)關(guān)鍵步驟進(jìn)行處理:攝像機(jī)姿態(tài)估計(jì);使用多視圖立體生成點(diǎn)云;使用約束組合進(jìn)行網(wǎng)格擬合。
傳統(tǒng)而言,大多數(shù)多視點(diǎn)人臉重建方法依賴于預(yù)先校準(zhǔn)的攝像機(jī)或使用地標(biāo)跟蹤器來估計(jì)相對(duì)于幾何對(duì)象的攝像機(jī)姿態(tài)。
CMU 團(tuán)隊(duì)利用視覺同步定位和映射(SLAM)的直接方法,一方面視覺 SLAM 可以對(duì)曲面上的點(diǎn)進(jìn)行三角剖分以計(jì)算其形狀,另一方面可實(shí)現(xiàn)亞像素精度的相機(jī)姿態(tài)估計(jì)。這種檢測方法特別適用于特征點(diǎn)檢測和匹配中不存在大量拐角點(diǎn)的人臉。
因此,研究人員利用這個(gè)事實(shí),輸入一個(gè)單一的連續(xù)視頻序列,對(duì)于一個(gè)典型的序列,可以得到 50-80 個(gè)具有精確已知攝像機(jī)姿態(tài)的關(guān)鍵幀,經(jīng)過這一步能創(chuàng)建出一個(gè)人臉的初始幾何圖形,略顯粗糙,丟失的數(shù)據(jù)也會(huì)在模型中留下一些 “空隙”。
圖|初步掃描得到的模型效果(來源:CMU)如上圖所示,點(diǎn)云生成階段結(jié)束時(shí)生成的具有和不具有紋理的點(diǎn)云數(shù)據(jù),這些點(diǎn)云精確地捕捉了整個(gè)面部的幾何特征、眼睛、嘴唇等區(qū)域的輪廓細(xì)節(jié),使每個(gè)部分都能被識(shí)別。
然而,由于非理想照明、缺少紋理和智能手機(jī)的傳感器噪聲等因素,點(diǎn)云會(huì)有丟失的數(shù)據(jù)和噪聲,接下來就需要一個(gè)強(qiáng)力的網(wǎng)格擬合方法進(jìn)行彌補(bǔ),研究人員采用了非剛性網(wǎng)格擬合算法,利用點(diǎn)云約束、地標(biāo)約束、網(wǎng)格剛度約束和邊緣約束的組合,對(duì)模板進(jìn)行變形修復(fù),最終需要 30-40 分鐘的處理時(shí)間完成一個(gè)人臉模型的精確修復(fù)。
雖然這個(gè)過程耗時(shí)有點(diǎn)兒長,但結(jié)果卻是值得的,最終構(gòu)建出的面部三維模型中位數(shù)精度約為 0.95 毫米,在精度和完成度方面優(yōu)于當(dāng)前一些主流的單視圖和多視圖重建方法,在精細(xì)細(xì)節(jié)方面得到增強(qiáng),這也是三維人臉重建研究的一個(gè)最新趨勢(shì):將精細(xì)的高頻細(xì)節(jié)壓印到重建模型之中。
不過,目前這項(xiàng)研究對(duì)場景中的動(dòng)態(tài)運(yùn)動(dòng)不具有魯棒性,團(tuán)隊(duì)會(huì)在接下來進(jìn)一步深化研究。
圖|各種主流單視圖和多視圖重建方法的結(jié)果比較,正面和剖面相應(yīng)的誤差熱圖(來源:CMU)
另外一點(diǎn)值得關(guān)注的是,該團(tuán)隊(duì)還建立了一個(gè)包含 100 位受試者的數(shù)據(jù)集,每個(gè)受試者在不同的光線和背景條件下記錄了 2 個(gè)視頻序列。對(duì)于每個(gè)視頻,研究人員都提供一組 50-80 個(gè)他們使用的關(guān)鍵幀和重建方式(網(wǎng)格、點(diǎn)云和表面法線貼圖)作為參考,希望這一數(shù)據(jù)集有助于進(jìn)一步研究和評(píng)估無約束的、既準(zhǔn)確又一致的多視圖和單視圖重建算法。
在這項(xiàng)工作中,我們看到了一個(gè)普適性的解決方案,這種方法當(dāng)下不一定很快,但整個(gè)過程可以在智能手機(jī)上完成,而隨著智能手機(jī)的計(jì)算處理能力越來越強(qiáng)大,最終用戶有望在不使用任何專用傳感器掃描儀的情況下捕獲高精準(zhǔn)度的面部三維模型。
西蒙 · 露西表示,除了面部重建,CMU 團(tuán)隊(duì)的方法也可以用來捕捉幾乎任何物體的幾何結(jié)構(gòu),然后,這些對(duì)象的數(shù)字重建可以合并到動(dòng)畫中,或者通過互聯(lián)網(wǎng)傳輸?shù)娇梢允褂?3D 打印機(jī)復(fù)制這些對(duì)象的站點(diǎn)。
發(fā)表評(píng)論
暫時(shí)沒有評(píng)論,來搶沙發(fā)吧~