每日精選AI研究論文及翻譯
我們介紹了 phi-1,一個針對程式碼的新型大型語言模型,其尺寸明顯比競爭模型小:phi-1 是基於 Transformer 的模型,具有 13 億個參數,在 8 台 A100 上訓練了 4 天,使用了從網路中選取的「教科書質量」數據(60 億標記)以及與 GPT-3.5(10 億標記)合成生成的教科書和練習題。儘管規模較小,phi-1 在 HumanEval 上達到了 50.6% 的 pass@1 準確率,並在 MBPP 上達到了 55.5%。與 phi-1-base 相比,即我們在編程練習數據集上進行微調之前的模型,以及 phi-1-small,一個具有 3.5 億參數的較小模型,使用與 phi-1 相同的流程訓練,仍然在 HumanEval 上達到了 45% 的準確率,phi-1 顯示出了一些令人驚訝的新特性。
由於數位人類的新興需求,從給定動作描述中生成逼真的人類動作已經取得顯著進展。儘管最近的研究在直接從文本動作描述中生成動作方面取得了令人印象深刻的成果,但它們通常僅支持控制信號的單一模態,這限制了它們在真實數位人類產業中的應用。本文提出了一種名為運動通用生成器(MotionGPT)的方法,可以使用多模態控制信號(例如文本和單幀姿勢)來生成連續的人類動作,將多模態信號視為大型語言模型(LLMs)中的特殊輸入標記。具體而言,我們首先將多模態控制信號量化為離散代碼,然後將它們制定為統一的提示指令,要求LLMs生成動作答案。我們的MotionGPT通過調整僅佔LLM參數總量的0.4%,展示了一個具有多模態控制信號的統一人類運動生成模型。據我們所知,MotionGPT是第一種通過多模態控制信號生成人類動作的方法,我們希望這將為這個新方向帶來新的啟發。代碼將在接受後發布。
HomeRobot(名詞):一款價格親民的遵從性機器人,能夠在家中導航並操作各種物件,以完成日常任務。開放詞彙移動操作(OVMM)是在任何未知環境中拾取任何物件並將其放置在指定位置的問題。這是機器人成為人類環境中有用助手的基礎挑戰,因為它涉及解決機器人各個領域的子問題:感知、語言理解、導航和操作對於OVMM都是至關重要的。此外,整合這些子問題的解決方案本身也具有重大挑戰。為了推動這一領域的研究,我們引入了HomeRobot OVMM基準測試,其中一個代理在家庭環境中導航,抓取新穎物件並將其放置在目標容器中。HomeRobot有兩個組件:一個模擬組件,使用新的高質量多房間家庭環境中的大量多樣化物件集合;以及一個現實世界組件,提供一個針對低成本Hello Robot Stretch的軟體堆疊,以鼓勵實驗室之間進行現實世界實驗的複製。我們實施了基於強化學習和啟發式(基於模型)的基準線,並展示了從模擬到現實的轉移證據。我們的基準線在現實世界實現了20%的成功率;我們的實驗確定了未來研究工作可以改善性能的方法。在我們的網站上觀看視頻:https://ovmm.github.io/。
儘管大型語言模型(LLMs)在像GitHub Copilot這樣的編碼助手中取得了巨大成功,但這些模型在理解存儲庫中的上下文(例如導入、父類別、具有相似名稱的文件等)方面仍然存在困難,因此導致代碼補全不準確。當使用這些助手來處理模型在訓練期間未見過的存儲庫時(例如專有軟件或正在進行中的代碼項目),這種影響將更加明顯。最近的研究表明,在推論過程中使用存儲庫的上下文具有潛力。在本研究中,我們擴展了這個想法,提出了RepoFusion,一個用於訓練模型以整合相關存儲庫上下文的框架。對單行代碼補全的實驗顯示,我們訓練的具有存儲庫上下文的模型明顯優於遠大於其的CodeGen-16B-multi代碼模型(大小相差73倍),並且與使用Fill-in-the-Middle目標訓練的大小相差70倍的StarCoderBase模型的性能相當。我們認為這些結果是對訓練具有存儲庫上下文的模型所帶來的收益的一個新穎而引人注目的展示。我們進行了大量的消融研究,以探討設計選擇(例如上下文類型、上下文數量、上下文長度和初始化)在我們的框架中的影響。最後,我們釋出了Stack-Repo,這是一個包含200個Java存儲庫的數據集,這些存儲庫具有寬鬆的許可證並且具有幾乎重複的文件,並且增加了三種類型的存儲庫上下文。此外,我們還提供了我們工作的代碼和訓練檢查點。我們釋出的資源可以在https://huggingface.co/RepoFusion 找到。
在現實世界應用中收集的點雲數據通常是不完整的。 數據通常缺失是因為觀察到的物體來自部分視角,僅捕捉特定的透視或角度。此外,數據也可能因遮蔽和低分辨率採樣而不完整。現有的完成方法依賴於預定義對象的數據集,以指導嘈雜和不完整的點雲的完成。然而,這些方法在測試時對於在訓練數據集中缺乏充分代表性的Out-Of-Distribution(OOD)對象表現不佳。在這裡,我們利用了最近在文本引導圖像生成方面取得的重大突破,這些突破帶來了文本引導形狀生成方面的重大進展。我們描述了一種稱為SDS-Complete的方法,該方法使用預先訓練的文本到圖像擴散模型,並利用給定對象的不完整點雲的文本語義,以獲得完整的表面表示。SDS-Complete可以在測試時進行優化,完成各種對象,而無需昂貴地收集3D信息。我們在由現實世界深度感應器和LiDAR掃描儀捕獲的不完整掃描對象上評估了SDS Complete。我們發現,與當前方法相比,它有效地重建了常見數據集中缺失的對象,平均減少了50%的Chamfer損失。項目頁面:https://sds-complete.github.io/
去噪擴散模型是一種強大的生成模型,用於捕捉現實世界信號的複雜分佈。然而,它們的應用僅限於訓練樣本readily可用的情況,而這在現實應用中並非總是如此。例如,在逆向圖形學中,目標是從與給定圖像對齊的3D場景分佈生成樣本,但缺乏地實3D場景,只能訪問2D圖像。為了解決這一限制,我們提出了一種新型的去噪擴散概率模型,該模型學習從從未直接觀察到的信號分佈中抽樣。相反,這些信號通過已知的可微分正向模型間接測量,該模型生成未知信號的部分觀測。我們的方法涉及將正向模型直接整合到去噪過程中。這種整合有效地將觀測的生成建模與底層信號的生成建模相連接,從而實現對信號的條件生成模型的端到端訓練。在推斷過程中,我們的方法使從與給定部分觀測一致的底層信號分佈中抽樣成為可能。我們在三個具有挑戰性的計算機視覺任務上展示了我們方法的有效性。例如,在逆向圖形學的背景下,我們的模型實現了從與單個2D輸入圖像對齊的3D場景分佈直接抽樣。
利用來自不同機器人和任務的異質機器人經驗,迅速掌握新技能和實體的能力,有潛力改變機器人學習。受到視覺和語言基礎模型的最新進展的啟發,我們提出了一個用於機器人操作的基礎代理。這個代理被命名為RoboCat,是一個視覺目標條件化的決策轉換器,能夠處理多實體動作標記的視覺經驗。這些數據涵蓋了從具有不同觀察和動作集的模擬和真實機器人手臂中獲得的大量運動控制技能。通過RoboCat,我們展示了對新任務和機器人的泛化能力,包括零樣本以及僅使用100至1000個目標任務示例進行適應。我們還展示了如何使用訓練過的模型本身來生成後續訓練迭代的數據,從而為自主改進迴圈提供了基本構建塊。我們研究了代理的能力,並在模擬環境和三種不同真實機器人實體上進行了大規模評估。我們發現,隨著訓練數據的擴展和多樣化,RoboCat不僅表現出跨任務轉移的跡象,還在適應新任務方面變得更加高效。
大型語言模型(LLMs)展現出卓越的語言理解和生成能力。從基礎LLMs發展到遵循指示的LLMs,指示調整在對齊LLMs與人類偏好方面發揮著至關重要的作用。然而,現有的LLMs通常專注於英語,導致在非英語語言方面表現較差。為了提高非英語語言的性能,有必要為基礎LLMs收集特定語言的訓練數據並構建特定語言的指示以進行指示調整,這兩者都是繁重的工作。為了減少人類工作量,我們提出通過互動翻譯任務將語言生成和指示遵循的能力從英語轉移到其他語言。我們開發了BayLing,一個利用LLaMA作為基礎LLM並自動構建互動翻譯指示以進行指示調整的遵循指示LLM。廣泛的評估表明,儘管參數大小僅為130億,BayLing實現了與GPT-3.5-turbo相當的性能。在翻譯任務的實驗結果顯示,BayLing在自動評估中實現了相當於GPT-4的單輪翻譯能力的95%,在人工評估中實現了相當於GPT-3.5-turbo的互動翻譯能力的96%。為了估計在一般任務上的性能,我們創建了一個名為BayLing-80的多輪指示測試集。BayLing-80的實驗結果表明,BayLing實現了相當於GPT-3.5-turbo的性能的89%。BayLing在中國高考和英語SAT的知識評估方面表現出色,僅次於眾多遵循指示的LLMs中的GPT-3.5-turbo。BayLing的演示、主頁、代碼和模型均可提供。
程式碼語言模型(LMs)在生成時周圍程式碼提供足夠上下文時表現良好。然而,當需要使用另一個模組或庫中定義的類型或功能時,尤其是在訓練期間未見過的類型或功能時,這種情況就不成立了。LMs缺乏對這種全局上下文的認識,最終會出現幻覺,例如不正確地使用其他文件中定義的類型。最近的研究試圖通過檢索全局信息來擴充本地上下文以克服這個問題。然而,這會使提示過於冗長,或需要架構修改和額外的訓練。 集成開發環境(IDEs)通過靜態分析將全局上下文帶到開發人員的指尖,以協助開發人員。我們將這種開發人員所享受的幫助擴展到LMs。我們提出了一種使用背景靜態分析來引導解碼的監視器概念。與事先檢索不同,靜態分析在整個解碼過程中迭代調用,根據需求提供最相關的建議。我們通過監控LM生成對象解引用的程式碼時對識別符的類型一致使用的有用性來展示我們提案的有效性。 為了評估我們的方法,我們精心編輯了PragmaticCode數據集,其中包含開源項目及其開發環境。在不同參數規模的模型上,我們展示了監視器引導解碼能夠持續提高LM生成與真實情況相符的識別符的能力,並提高編譯速度和與真實情況的一致性。我們發現,在監視器引導下,具有較少參數的LMs可以優於較大的LMs。通過監視器引導解碼,SantaCoder-1.1B實現了比規模更大的text-davinci-003模型更好的編譯速度和下一個識別符匹配。數據集和代碼將在https://aka.ms/monitors4codegen 上發布。
記憶增強是一種有效將外部資訊納入語言模型的強大方法,但相對於檢索文本會導致性能降低。最近的研究引入了LUMEN,一種記憶檢索混合方法,部分預先計算記憶並使用較小的即時編碼器動態更新記憶表示。 我們提出GLIMMER,通過以下方式改進這種方法:1) 利用強大記憶表示的免費訪問,通過在記憶頂部應用淺層重新排序器,以極大降低成本大幅改善檢索質量,2) 結合多任務訓練,學習一個通用且高質量的記憶和即時編碼器。GLIMMER在知識密集型任務的KILT基準測試中相比於LUMEN和FiD實現了性能的顯著提升並且速度更快。
大規模視覺語言模型(VLM)在語言導向搜索應用中展現出令人印象深刻的成果。儘管這些模型允許類別級別的查詢,但目前在尋找視頻中特定物件實例(例如“我的狗餅乾”)的個性化搜索方面仍然存在困難。我們提出以下三點貢獻來解決這個問題。首先,我們描述了一種方法來元個性化預訓練的VLM,即在測試時間學習如何個性化VLM以在視頻中進行搜索。我們的方法通過學習特定於每個實例的新詞嵌入來擴展VLM的標記詞彙表。為了僅捕捉實例特定的特徵,我們將每個實例嵌入表示為共享和學習的全局類別特徵的組合。其次,我們提出在沒有明確人類監督的情況下學習進行這種個性化。我們的方法通過在VLM的嵌入空間中使用轉錄和視覺語言相似性自動識別視頻中命名視覺實例的時刻。最後,我們介紹了This-Is-My,一個個人視頻實例檢索基準。我們在This-Is-My和DeepFashion2上評估我們的方法,並展示我們在後者數據集上相對於最新技術取得了15%的改進。
多軌音樂轉譜的目標是將音樂音頻輸入轉譜為多個樂器的音符。這是一項非常具挑戰性的任務,通常需要更複雜的模型才能達到滿意的結果。此外,先前的研究大多集中在常規樂器的轉譜上,卻忽略了通常是音樂中最重要的信號來源之一的人聲。本文提出了一種新穎的深度神經網絡架構,名為 Perceiver TF,用於對音頻輸入進行多軌轉譜的時間-頻率表示建模。Perceiver TF 通過引入具有額外 Transformer 層的分層擴展來擴展 Perceiver 架構,以建模時間一致性。因此,我們的模型繼承了 Perceiver 的優勢,具有更好的可擴展性,使其能夠很好地處理單個模型中的多個樂器的轉譜。在實驗中,我們以多任務學習的方式訓練 Perceiver TF 來模擬 12 種樂器類別以及人聲。我們的結果表明,所提出的系統在各種公共數據集上優於最先進的對手(例如 MT3 和 SpecTNT)。