每日精選AI研究論文及翻譯
我們介紹了光擴散,這是一種改善肖像照明的新方法,可以軟化嚴苛的陰影和高光,同時保留整個場景的照明。受專業攝影師的擴散器和遮光布的啟發,我們的方法可以在僅有一張肖像照片的情況下軟化照明。先前的肖像照明方法主要集中在改變整個照明環境,去除陰影(忽略強烈的高光),或完全去除陰影。相反地,我們提出了一種基於學習的方法,可以讓我們控制光擴散的程度並應用於野外肖像。此外,我們設計了一種方法,可以合成生成具有次表面散射效應的外部陰影,同時符合主題臉部的形狀。最後,我們展示了我們的方法如何提高更高級別的視覺應用的魯棒性,例如反照率估計、幾何估計和語義分割。
儘管最近3D生成神經網絡的快速演進顯著改善了3D形狀生成,但對於普通用戶來說,創建3D形狀並控制生成形狀的局部幾何仍不方便。為應對這些挑戰,我們提出了一個基於擴散的3D生成框架--局部關注SDF擴散,以模擬合理的3D形狀,通過2D草圖圖像輸入。我們的方法建立在一個兩階段擴散模型上。第一階段稱為佔用擴散,旨在生成一個低分辨率佔用場,以逼近形狀外殼。第二階段稱為SDF擴散,合成一個高分辨率的符號距離場,在第一階段確定的佔用體素內提取精細幾何。我們的模型借助一種新穎的視角感知局部關注機制進行圖像條件下的形狀生成,利用2D圖像補丁特徵引導3D體素特徵學習,極大地提高了局部可控性和模型泛化能力。通過在草圖條件和類別條件下進行的大量實驗,我們驗證並展示了我們的方法提供合理和多樣的3D形狀的能力,以及相對於現有工作的優越可控性和泛化能力。我們的代碼和訓練模型可在以下鏈接找到:https://zhengxinyang.github.io/projects/LAS-Diffusion.html
大型語言模型(LLMs)展現了卓越的語言能力。基於先進的LLMs,GPT-4展示了非凡的多模態能力,超越了先前的視覺語言模型。我們將這歸因於與先前多模態模型相比使用了更先進的LLMs。不幸的是,GPT-4的模型架構和訓練策略尚不清楚。為了賦予LLMs多模態能力,我們提出了X-LLM,它通過X2L接口將多模態(圖像、語音、視頻)轉換為外語並輸入到大型語言模型(ChatGLM)中。具體來說,X-LLM通過X2L接口對齊多個凍結的單模態編碼器和一個凍結的LLM,其中“X”表示多模態,如圖像、語音和視頻,“L”表示語言。X-LLM的訓練包括三個階段:(1)轉換多模態信息:第一階段訓練每個X2L接口分別與其相應的單模態編碼器對齊,將多模態信息轉換為語言;(2)將X2L表示與LLM對齊:單模態編碼器通過X2L接口獨立與LLM對齊;(3)整合多模態:所有單模態編碼器通過X2L接口與LLM對齊,將多模態能力整合到LLM中。我們的實驗表明,X-LLM展示了令人印象深刻的多模式聊天能力,有時展現出對未見圖像/指令的多模態GPT-4行為,並在合成多模態指令遵循數據集上相對於GPT-4獲得了84.5%的相對分數。我們還對使用LLM進行ASR和多模態ASR進行了定量測試,希望推動基於LLM的語音識別時代的到來。
組合推理是人類視覺智能的一個標誌;然而,儘管大型視覺語言模型的規模龐大,它們卻難以通過結合物體與其屬性來表示簡單的組合。為了衡量這種缺乏組合能力,我們設計了 Cola,一個文本到圖像檢索基準,用於組合帶有屬性的局部化物體。利用 Cola 作為測試平臺,我們探索建模設計,以適應預訓練的視覺語言模型對附加到多個物體的多個屬性進行組合推理。我們在兩個具有開創性的視覺語言模型上探索了 6 種微調策略,使用 3 個微調數據集和 2 個測試基準(Cola 和 CREPE)。令人驚訝的是,我們的最佳微調策略將一個具有 151M 參數的 CLIP,該模型在預訓練期間分別編碼圖像和語言,提升到與一個使用多模態變壓器編碼器在預訓練期間對視覺和語言模態進行關注的 241M 參數 FLAVA 一樣出色。這種最佳微調策略是一個輕量級的多模態適配器,它聯合關注預訓練模型生成的圖像和語言特徵。我們展示了這比常見策略如提示/微調或調整相同數量的單模態層效果更好。
擴散模型已成為視覺領域基礎模型的重要支柱之一。其中一個關鍵應用是通過單一擴散先驗普遍解決不同下游反向任務,而無需為每個任務重新訓練。大多數反向任務可以被定義為在給定測量(例如,遮罩圖像)的情況下推斷出關於數據(例如,完整圖像)的後驗分佈。然而,在擴散模型中這是具有挑戰性的,因為擴散過程的非線性和迭代性質使後驗難以處理。為了應對這一挑戰,我們提出了一種變分方法,通過設計來近似真實後驗分佈。我們展示了我們的方法自然地導致通過去噪擴散過程(RED-Diff)實現正則化,其中不同時間步的去噪器同時對圖像施加不同的結構約束。為了衡量來自不同時間步的去噪器的貢獻,我們提出了一種基於信噪比(SNR)的加權機制。我們的方法為使用擴散模型解決反向問題提供了一個新的變分觀點,使我們能夠將抽樣定義為隨機優化,從而可以簡單應用輕量級迭代的現成求解器。我們針對圖像修復任務,如修補和超分辨率,進行的實驗顯示了我們的方法相對於最先進的基於抽樣的擴散模型的優勢。
現代生成器以令人印象深刻的逼真程度呈現說話頭像影片,開創了新的使用者體驗,例如在受限頻寬預算下進行視訊會議。然而,要安全地採用這些生成器,需要一個機制來驗證渲染的影片是否可信。例如,在視訊會議中,我們必須識別合成的影片肖像在未經個人同意的情況下使用某人的外觀。我們將這個任務稱為頭像指紋識別。我們提議通過利用每個人獨特的面部運動簽名來應對這個問題。具體來說,我們學習一種嵌入式表示法,其中一個身份的運動簽名被聚集在一起,並且與其他身份的運動簽名保持距離,而不管在合成影片中的外觀如何。隨著說話頭像生成器變得更加普及,頭像指紋識別算法將至關重要,但目前尚無大規模數據集可供進行這項新任務。因此,我們提供了一個包含人們進行劇本和即興短篇獨白的大型數據集,並附帶合成影片,其中我們渲染了一個人使用另一個人的面部外觀的影片。專案頁面:https://research.nvidia.com/labs/nxp/avatar-fingerprinting/。
網頁一直是視覺語言和僅語言任務的豐富、可擴展資源。然而,只有網頁的部分內容被保留下來:圖像標題配對、長文本文章或原始 HTML,從未集中在一個地方。因此,網頁任務受到較少關注,結構化的圖像-文本數據被遺憾地未被充分利用。為了研究多模態網頁理解,我們引入了包含 2M 頁面的維基百科網頁套件(WikiWeb2M)。我們在三個生成任務上驗證了其效用:頁面描述生成、章節摘要和情境圖像標題生成。我們設計了一種新穎的注意機制 Prefix Global,它選擇最相關的圖像和文本內容作為全域標記,以便關注網頁其餘部分的上下文。通過使用頁面結構來分離這些標記,它比全注意力機制表現更好,並具有較低的計算複雜度。實驗表明,來自 WikiWeb2M 的新標註相較於先前工作的數據,改善了任務性能。我們還對序列長度、輸入特徵和模型大小進行了消融實驗。
我們提出了一種深度學習方法,用於對物理模擬角色進行複合和任務驅動的運動控制。與現有使用強化學習來模仿全身運動的數據驅動方法不同,我們通過在類似GAN的設置中利用多個鑑別器,同時直接從多個參考運動中為特定身體部位學習解耦運動。在這個過程中,無需進行任何手動工作來生成用於學習的複合參考運動。相反,控制策略自行探索如何自動組合複合運動。我們進一步考慮多個任務特定的獎勵並訓練單一的多目標控制策略。為此,我們提出了一個新的多目標學習框架,自適應地平衡來自多個來源和多個目標導向控制目標的不同運動的學習。此外,由於複合運動通常是對更簡單行為的增強,我們引入了一種高效的方法來以增量方式訓練複合控制策略,其中我們將預先訓練的策略重複使用作為元策略,並訓練一個合作策略,使其適應新的複合任務。我們展示了我們的方法在各種具有挑戰性的多目標任務上的應用,包括複合運動模仿和多目標導向控制。