每日精選AI研究論文及翻譯
我們提出了一種名為內容變形場(CoDeF)的新型視頻表示形式,由一個規範內容場和一個記錄從規範圖像(即從規範內容場呈現的)到每個單獨幀的變換的時間變形場組成。對於目標視頻,這兩個場是通過精心設計的渲染管道共同優化以重建它。我們特意在優化過程中引入了一些正則化,促使規範內容場從視頻中繼承語義(例如對象形狀)。通過這種設計,CoDeF自然支持將圖像算法應用於視頻處理,即可以將圖像算法應用於規範圖像,並通過時間變形場輕鬆將結果傳播到整個視頻。我們通過實驗表明,CoDeF能夠將圖像到圖像的轉換提升為視頻到視頻的轉換,並將關鍵點檢測提升為關鍵點跟踪而無需任何訓練。更重要的是,由於我們的提升策略僅在一個圖像上部署算法,與現有的視頻到視頻轉換方法相比,我們在處理的視頻中實現了更優越的跨幀一致性,甚至能夠跟踪水和煙霧等非剛性對象。項目頁面可在https://qiuyu96.github.io/CoDeF/找到。
近期在大型語言模型(LLMs)如 GPT-4 和 PaLM-2 上取得的進展,顯著提升了解決數學推理問題的能力。特別是 OpenAI 最新版本的 GPT-4,被稱為 GPT-4 Code Interpreter,在具有挑戰性的數學數據集上表現出色。本文探討代碼對增強LLMs推理能力的影響,通過對 GPT-4 Code Interpreter 的代碼使用頻率引入不同約束。我們發現其成功主要歸因於其在生成和執行代碼、評估代碼執行輸出以及在收到不合理輸出時糾正解決方案方面的強大技能。基於這一洞察,我們提出了一種新穎且有效的提示方法,即明示代碼自我驗證(CSV),以進一步提升 GPT-4 Code Interpreter 的數學推理潛力。該方法在 GPT-4 Code Interpreter 上採用零猜測提示,鼓勵其使用代碼自我驗證答案。在驗證狀態為“False”的情況下,模型將自動修正其解決方案,類似於我們在數學考試中糾正錯誤的方法。此外,我們認識到驗證結果的狀態表明解決方案的信心水平,這可以提高多數投票的效果。通過 GPT-4 Code Interpreter 和 CSV,我們在 MATH 數據集上實現了令人印象深刻的零猜測準確率(從53.9%提高到84.3%)。
本文探討檢索增強型編碼器-解碼器語言模型的上下文學習能力。我們首先對當前最先進的ATLAS模型進行全面分析,識別其在上下文學習方面存在的限制,主要是由於預訓練和測試之間的不匹配,以及受限的上下文長度。為解決這些問題,我們提出了RAVEN,這是一個結合了檢索增強遮罩語言建模和前綴語言建模的模型。我們進一步引入了融合上下文學習,通過使模型能夠利用更多上下文示例來增強少樣本性能,而無需額外的訓練或模型修改。通過大量實驗,我們證明了RAVEN明顯優於ATLAS,在某些情況下取得了與最先進語言模型可比的結果,儘管參數明顯較少。我們的工作突顯了檢索增強型編碼器-解碼器語言模型在上下文學習方面的潛力,並鼓勵在這個方向進行進一步研究。
在人類對話中,從上下文中學習新概念並提供適當回應的能力至關重要。儘管目前的多模態大型語言模型(MLLMs)和大型語言模型(LLMs)是在大規模數據集上訓練的,但在無需訓練的情況下識別未見圖像或理解新概念仍然是一個挑戰。上下文學習(ICL)探索無需訓練的少樣本學習,其中模型被鼓勵從有限任務中“學會學習”,並推廣到未見任務。在這項工作中,我們提出了聯結上下文學習(LCL),強調“從因果推理”,以增強MLLMs的學習能力。LCL超越了傳統的ICL,通過明確加強支持集和查詢集之間的因果關係。通過提供具有因果聯繫的示範,LCL引導模型不僅識別類比,還理解數據點之間的潛在因果聯繫,從而使MLLMs更有效地識別未見圖像並理解新概念。為了促進對這種新方法的評估,我們引入了ISEKAI數據集,該數據集僅包含為聯結上下文學習而生成的未見圖像標籤對。大量實驗表明,我們的LCL-MLLM展現出強大的聯結上下文學習能力,適用於新概念,勝過普通的MLLMs。代碼和數據將在https://github.com/isekai-portal/Link-Context-Learning 上發布。
本文探討從動態人類的稀疏視圖(甚至單眼)視頻中創建可重新照明和動畫化的神經頭像的挑戰,並且在未知照明條件下進行。與工作室環境相比,這種設置更實用和易於訪問,但提出了一個極具挑戰性的不透明問題。先前的神經人體重建方法能夠使用變形的有符號距離場(SDF)從稀疏視圖中重建可動的頭像,但無法恢復用於重新照明的材料參數。儘管基於可微逆渲染的方法成功地恢復了靜態物體的材料,但將其擴展到動態人類並不簡單,因為在變形的SDF上計算像素-表面交點和光能見度對於逆渲染而言計算量巨大。為了解決這一挑戰,我們提出了一種分層距離查詢(HDQ)算法,以近似在任意人體姿勢下的世界空間距離。具體而言,我們基於一個參數化人體模型估計粗略距離,並通過利用SDF的局部變形不變性計算精細距離。基於HDQ算法,我們利用球追蹤來高效估計表面交點和光能見度。這使我們能夠開發第一個從稀疏視圖(或單眼)輸入中恢復可動和可重新照明的神經頭像的系統。實驗表明,我們的方法能夠產生優越的結果,優於最先進的方法。我們的代碼將被釋放以實現可重現性。
最近關於深度強化學習(DRL)的研究指出,可以從缺乏有關執行動作明確信息的離線數據中提取有關良好策略的算法信息。例如,人類或機器人的影片可能隱含許多關於有獎勵的動作序列的信息,但一個希望從觀看這些影片中獲益的DRL機器必須首先自行學習識別和辨識相關的狀態/動作/獎勵。在不依賴地面真實標註的情況下,我們提出了一種名為深度狀態識別器的新方法,該方法學習從以影片編碼的情節中預測回報。然後,它使用一種基於遮罩的敏感性分析來提取/識別重要的關鍵狀態。大量實驗展示了我們方法理解和改進代理行為的潛力。源代碼和生成的數據集可在https://github.com/AI-Initiative-KAUST/VideoRLCS 上找到。
對於自動語音識別(ASR)的文本注入,即使用未配對的僅文本數據來補充配對的音頻-文本數據,已經顯示出對於詞錯率有著令人期待的改進。本研究探討了文本注入用於輔助任務,這些任務通常由端對端(E2E)模型執行。在這項工作中,我們使用聯合端對端和內部語言模型訓練(JEIT)作為我們的文本注入算法,來訓練一個ASR模型,該模型執行兩個輔助任務。第一個是大寫化,這是一個去正規化的任務。第二個是轉換預測,該任務試圖識別用戶是否已完成他們在數字助理互動中的對話輪。我們展示了結果,證明了我們的文本注入方法提升了長尾數據的大寫化性能,並改善了轉換檢測的召回率。