【手機(jī)中國新聞】使用后期制作軟件,在場景中真實(shí)地放置東西對計算機(jī)來說,比對人來說要困難得多。它不僅要求為所述對象確定適當(dāng)?shù)奈恢?,而且要求預(yù)測目標(biāo)位置上的對象的外觀、比例、遮擋、姿態(tài)、形狀等。
幸運(yùn)的是,人工智能(AI)承諾提供幫助。NeurIPS 2018會議上的一篇論文中(上下文感知合成和匹配對象實(shí)例),首爾國立大學(xué)的研究人員,加州大學(xué)默塞德,和谷歌AI描述一個系統(tǒng),學(xué)會把一個對象插入一個圖像,在語義上,令人信服 。
在符合場景語義的圖像中插入對象是一項(xiàng)具有挑戰(zhàn)性和趣味性的任務(wù)。研究人員寫道,這項(xiàng)任務(wù)與許多實(shí)際應(yīng)用密切相關(guān),包括圖像合成、AR和VR內(nèi)容編輯。這樣的對象插入模型可以潛在地促進(jìn)許多圖像編輯和場景解析應(yīng)用程序。
他們的端到端框架包括兩個模塊,決定了插入的對象,應(yīng)該是和第二個決定它應(yīng)該是什么樣子,利用甘斯( GANs),或兩個神經(jīng)網(wǎng)絡(luò)組成,試圖區(qū)分生成的樣本和實(shí)際樣品。由于系統(tǒng)同時對插入的圖像進(jìn)行分布建模,因此兩個模塊可以相互互通并優(yōu)化。
該論文的作者寫道,這項(xiàng)工作的主要技術(shù)新穎之處在于,它構(gòu)建了一個端到端的可培訓(xùn)神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以從新對象的聯(lián)合分布中對其可能的位置和形狀進(jìn)行采樣。合成的對象實(shí)例既可以作為基于GAN的方法的輸入,也可以從現(xiàn)有數(shù)據(jù)集中檢索最近的所需部分,從而生成新的圖像。
正如他們解釋的那樣,在這種情況下,生成器可以預(yù)測合理的位置,生成語義上一致的比例、姿勢和形狀的對象掩碼,特別是對象如何在場景中分布,以及如何自然地插入對象,以便使其看起來是場景的一部分。隨著時間的推移,在訓(xùn)練過程中,AI系統(tǒng)會根據(jù)場景學(xué)習(xí)不同的對象類別分布,例如在城市街道的圖像中,人們往往在人行道上,而汽車通常在路上。
在測試中,研究人員通過插入形狀逼真的物體,使模型優(yōu)于基線。當(dāng)將YOLOv3圖像識別器應(yīng)用于人工智能生成的圖像時,檢測合成目標(biāo)能夠以0.79的召回率。更能說明問題的是,在對亞馬遜的(Mechanical Turk)公司員工進(jìn)行的一項(xiàng)調(diào)查中,43%的人認(rèn)為人工智能生成的物體是真實(shí)的。
研究人員寫道,這表明我們的方法能夠執(zhí)行對象合成和插入任務(wù)。由于我們的方法是在什么地方和什么東西上聯(lián)合建模的,因此可以用于解決其它計算機(jī)視覺問題。未來有趣的工作之一將是處理對象之間的遮擋。
關(guān)于CNMO | 聯(lián)系我們 | 站點(diǎn)地圖 | 精英招聘 | CNMO記事 | 家長監(jiān)護(hù)工程 | 舉報不良信息
Copyright © 2007 -
北京沃德斯瑪特網(wǎng)絡(luò)科技有限責(zé)任公司.All rights reserved 發(fā)郵件給我們
京ICP證-070681號 京ICP備09081256號 京公網(wǎng)安備 11010502036320號