每日精選AI研究論文及翻譯
我們提出了Video-LLaMA,這是一個多模態框架,賦予大型語言模型(LLMs)理解視覺和聽覺內容的能力。Video-LLaMA從凍結的預訓練視覺和音頻編碼器以及凍結的LLMs中引導跨模態訓練。與先前專注於靜態圖像理解的視覺-LLMs(如MiniGPT-4~zhu2023minigpt和LLaVA~liu2023visualit)不同,Video-LLaMA應對了視頻理解中的兩個挑戰:(1)捕捉視覺場景中的時間變化,(2)整合視聽信號。對於第一個挑戰,我們提出Video Q-former將預訓練的圖像編碼器擴展為視頻編碼器,並引入一個視頻到文本生成任務來學習視頻語言對應關係。對於第二個挑戰,我們利用ImageBind~girdhar2023imagebind作為預訓練音頻編碼器,該編碼器在將不同模態對齊到共同嵌入空間方面表現出色。然後引入一個音頻Q-former來學習聽覺查詢標記。為了將視覺和音頻編碼器的輸出與LLM的嵌入空間對齊,我們在大規模視覺字幕數據集和高量視覺指令調整數據集上訓練Video-LLaMA。我們發現Video-LLaMA展示了感知和理解視頻內容的能力,生成有意義的回應,這些回應基於視頻中存在的視覺和聽覺信息。這突顯了Video-LLaMA作為視聽AI助手的潛在應用。我們的代碼、預訓練模型和演示可在https://github.com/DAMO-NLP-SG/Video-LLaMA找到。
Polyglot 是一個開創性的項目,旨在增強多語言語言模型的非英語表現。儘管存在各種多語言模型,如 mBERT(Devlin 等,2019)、XGLM(Lin 等,2022)和 BLOOM(Scao 等,2022),研究人員和開發人員通常會因對當前多語言模型在非英語語言方面的表現不滿意而轉而構建各自語言的單語言模型。為填補這一差距,我們致力於開發先進的多語言語言模型,提供改進的非英語語言表現。在本文中,我們介紹了 Polyglot 韓文模型,這些模型具有特定的焦點,而非多語言性質。在與 TUNiB 合作的過程中,我們的團隊精心收集了1.2TB 的韓文數據,這些數據是為我們的研究之旅精心策劃的。我們故意決定優先開發韓文模型,而不是馬上進入多語言模型。這一選擇受到多種因素的驅使:首先,韓文模型有助於與現有多語言模型進行性能比較;最後,它們滿足了韓國公司和研究人員的特定需求。本文介紹了我們在開發 Polyglot 韓文模型方面的工作,提出了一些解決多語言語言模型中非英語語言表現差距的步驟。
大型語言模型(LLMs)在執行各種推理任務時,顯著受益於「Chain-of-Thought」(CoT)提示。雖然 CoT 允許模型產生更全面的推理過程,但其強調中間推理步驟可能會無意中引入幻覺和累積錯誤,從而限制模型解決複雜推理任務的能力。受到人類如何從事謹慎和細緻的演繹邏輯推理過程以解決任務的啟發,我們致力於使語言模型能夠執行明確和嚴謹的演繹推理,並通過自我驗證確保其推理過程的可信性。然而,即使使用像 ChatGPT 這樣的先進模型,直接驗證整個演繹推理過程的有效性也是具有挑戰性的。鑑於此,我們提議將推理驗證過程分解為一系列逐步子過程,每個子過程僅接收其必要的上下文和前提。為了促進這個過程,我們提出了「自然程序」,這是一種基於自然語言的演繹推理格式。我們的方法使模型能夠生成精確的推理步驟,其中後續步驟更嚴謹地建立在前一步驟之上。它還賦予語言模型以逐步方式進行推理自我驗證的能力。通過將這個驗證過程整合到每個演繹推理階段中,我們顯著增強了所生成推理步驟的嚴謹性和可信度。在這個過程中,我們還提高了對複雜推理任務的答案正確性。代碼將在 https://github.com/lz1oceani/verify_cot 上發布。
將文本轉換為大型和多樣數據集的文本轉語音已被證明在實現音色和語音風格泛化方面非常有效,特別是在零樣本 TTS 中。然而,先前的研究通常使用音頻編解碼器將語音編碼為潛在變量,並使用自回歸語言模型或擴散模型來生成它,這忽略了語音的內在特性,可能導致較差或無法控制的結果。我們認為語音可以分解為幾個屬性(例如內容、音色、韻律和相位),並且應該使用具有適當歸納偏差的模塊來對每個屬性進行建模。從這個角度出發,我們精心設計了一個名為 Mega-TTS 的新型大型零樣本 TTS 系統,該系統使用大規模多樣數據進行訓練,並以不同方式模擬不同的屬性:1)我們仍然選擇頻譜圖作為中間特徵,而不是使用音頻編解碼器編碼的潛在變量,因為頻譜圖很好地分離了相位和其他屬性。相位可以由基於 GAN 的聲碼器適當地構建,並且不需要由語言模型進行建模。2)我們使用全局向量來模擬音色,因為音色是一個隨時間變化緩慢的全局屬性。3)我們進一步使用基於 VQGAN 的聲學模型生成頻譜圖,並使用潛在代碼語言模型來擬合韻律的分佈,因為韻律在句子中隨時間迅速變化,而語言模型可以捕捉局部和長程依賴性。我們將 Mega-TTS 擴展到具有 20K 小時語音的多領域數據集,並在未見過的說話者上評估其性能。實驗結果表明,由於每個模塊的適當歸納偏差,Mega-TTS 在零樣本 TTS、語音編輯和跨語言 TTS 任務上均超越了最先進的 TTS 系統,具有出色的自然度、韌性和說話者相似性。音頻樣本可在 https://mega-tts.github.io/demo-page 上找到。
我們提出了MotionDiffuser,這是一種基於擴散的表示方法,用於描述多個智慧體未來軌跡的聯合分佈。這種表示方法具有幾個關鍵優勢:首先,我們的模型學習到了一個能夠捕捉多樣未來結果的高度多模態分佈。其次,簡單的預測器設計僅需要單一的L2損失訓練目標,並且不依賴軌跡錨點。第三,我們的模型能夠以置換不變的方式學習多個智慧體運動的聯合分佈。此外,我們利用主成分分析(PCA)實現了壓縮的軌跡表示,從而提高了模型性能並實現了對精確樣本對數概率的高效計算。隨後,我們提出了一個通用的受限取樣框架,基於可微成本函數實現了受控軌跡取樣。這種策略可以實現一系列應用,例如強制執行規則和物理先驗,或創建定制的模擬場景。MotionDiffuser可以與現有的骨幹架構結合,以實現頂尖的運動預測結果。我們在Waymo Open Motion數據集上獲得了多智慧體運動預測的最新成果。
最近,受惠於大視覺語言和圖像擴散模型的普及,基於文本引導的3D生成方法在製作高質量紋理和幾何方面取得了顯著進展。然而,現有方法在兩個方面仍然難以創建高保真度的3D頭像:(1) 它們主要依賴預先訓練的文本到圖像擴散模型,卻缺乏必要的3D意識和頭部先驗知識。這使得生成的頭像容易出現不一致性和幾何扭曲。(2) 它們在細粒度編輯方面表現不佳。這主要是由於從預先訓練的2D圖像擴散模型繼承的限制,當涉及到3D頭像時這些限制變得更加明顯。在這項工作中,我們通過引入一個名為HeadSculpt的多功能從粗到細的流程,來應對這些挑戰,用於從文本提示中製作(即生成和編輯)3D頭像。具體來說,我們首先通過利用基於地標的控制和表示頭部背面外觀的學習文本嵌入,為擴散模型配備3D意識,從而實現3D一致的頭像生成。我們進一步提出一種新的身份感知編輯分數提煉策略,通過高分辨率的可微渲染技術來優化具有紋理的網格。這使得在遵循編輯指示的同時保持身份特徵。我們通過全面的實驗和與現有方法的比較展示了HeadSculpt卓越的保真度和編輯能力。
我們提出了 PolyVoice,一個基於語言模型的語音到語音翻譯(S2ST)系統框架。我們的框架包括兩個語言模型:一個是翻譯語言模型,另一個是語音合成語言模型。我們使用離散化的語音單元,這些單元是以完全無監督的方式生成的,因此我們的框架可用於未書寫的語言。對於語音合成部分,我們採用現有的 VALL-E X 方法並建立基於單元的音頻語言模型。這使我們的框架能夠保留原始語音的聲音特徵和說話風格。我們在中文到英文和英文到西班牙文的配對上檢驗我們的系統。實驗結果顯示我們的系統能夠生成具有高翻譯質量和音頻質量的語音。語音樣本可在 https://speechtranslation.github.io/polyvoice 找到。
基於程式碼訓練的大型語言模型已顯示出提升軟體開發人員生產力的巨大潛力。已提出多個基於執行的基準來評估模型生成的程式碼在簡單編程問題上的功能正確性。然而,考慮到執行成本,對於複雜的現實專案進行相同評估是昂貴的。相反地,靜態分析工具如 linters 能夠在不執行程式的情況下檢測錯誤,但尚未被廣泛應用於評估程式碼生成模型。在這項研究中,我們提出了一個靜態評估框架,通過利用抽象語法樹來量化 Python 程式碼完成中的靜態錯誤。與基於執行的評估相比,我們的方法不僅更有效率,而且適用於現實世界中的程式碼。在實驗中,我們從開源存儲庫中收集程式碼上下文,使用公共模型生成一百萬個函數主體。我們的靜態分析顯示,未定義名稱和未使用變數是語言模型中最常見的錯誤之一。通過廣泛研究,我們還展示了取樣溫度、模型大小和上下文對程式碼完成中靜態錯誤的影響。
去噪擴散概率模型以其出色的保真度和多樣性改變了圖像生成。我們展示它們在估算光流和單眼深度方面也表現出色,令人驚訝的是,無需針對這些任務主導的特定架構和損失函數。與傳統基於回歸的點估計方法相比,擴散模型還能進行蒙特卡羅推斷,例如捕捉光流和深度中的不確定性和模糊性。通過自監督預訓練,綜合使用合成和真實數據進行監督訓練,以及技術創新(填充和步驟展開去噪擴散訓練)來處理噪聲不完整的訓練數據,以及一種簡單的粗到細的改進形式,可以訓練出用於深度和光流估算的最先進的擴散模型。廣泛的實驗集中在與基準、消融和模型捕捉不確定性和多樣性以及填補缺失值的能力的定量性能上。我們的模型,DDVM(去噪擴散視覺模型),在室內NYU基準上獲得了0.074的最先進相對深度誤差,並在KITTI光流基準上獲得了3.26%的Fl-all異常值率,比最佳發表方法好約25%。有關概述請參見 https://diffusion-vision.github.io。
三元和二元神經網絡實現無需乘法運算,如果在專用硬體上實現,可以比全精度網絡帶來數量級的效率提升。然而,由於參數和輸出空間都高度離散化,這類網絡很難進行優化。對於變壓器文本生成模型這一類型的網絡,困難更加嚴重,因為注意力操作對量化非常敏感,自回歸解碼在高基數輸出空間中產生的噪聲效應也會加劇問題。我們通過統計為基礎的權重量化和激活的彈性量化來解決這個問題,並展示了首個三元和二元變壓器模型在總結和機器翻譯的下游任務上的應用。我們的三元 BART 基礎模型在 CNN/DailyMail 基準測試中取得了 41 的 R1 分數,僅比完整模型低 3.9 分,但效率提高了 16 倍。我們的二元模型雖然精度較低,但取得了 35.6 的高度可觀分數。在機器翻譯方面,我們在 WMT16 En-Ro 基準測試中取得了 21.7 和 17.6 的 BLEU 分數,而完整精度的 mBART 模型分數為 26.8。我們還在 8 位激活設置中比較了我們的方法,在這種設置下,我們的三元和甚至二元權重模型可以匹敵或優於文獻中最佳的 8 位權重模型。我們的代碼和模型可在以下鏈接找到:https://github.com/facebookresearch/Ternary_Binary_Transformer
概念消除旨在從表示中刪除指定的特徵。它可用於提高公平性(例如,防止分類器使用性別或種族)和可解釋性(例如,刪除一個概念以觀察模型行為的變化)。在本文中,我們介紹LEAst-squares概念消除(LEACE),這是一種閉合形式方法,可以證明防止所有線性分類器檢測一個概念,同時對表示造成的損害最小。我們將LEACE應用於大型語言模型,使用一種名為“概念擦除”的新程序,從網絡中的每一層中刪除目標概念信息。我們在兩個任務上展示了我們方法的用處:測量語言模型對詞性信息的依賴程度,以及減少BERT嵌入中的性別偏見。代碼可在https://github.com/EleutherAI/concept-erasure找到。
我們提出了語義解釋器(Semantic Interpreter),這是一種針對生產力軟體(如Microsoft Office)的自然語言友好型人工智慧系統,利用大型語言模型(LLMs)來執行用戶意圖跨應用程式功能。雖然LLMs在理解以自然語言表達的用戶意圖方面表現出色,但對於實現需要超出文本轉換的應用程式特定用戶意圖來說並不足夠。因此,我們引入了Office領域特定語言(ODSL),這是一種簡潔、高層次的語言,專門用於在Office應用程式中執行操作並與實體進行交互。語義解釋器利用分析檢索提示構建方法與LLMs進行程式合成,將自然語言用戶發話翻譯為可以轉譯為應用程式API並隨後執行的ODSL程式。我們主要討論了針對Microsoft PowerPoint的研究探索。
最近,程式碼的大型語言模型(Code-LLMs)為程式碼補全帶來了巨大的進展,這是程式設計輔助和程式碼智能的基本功能。然而,大多數現有的研究忽略了在生成過程中程式碼上下文中可能存在的錯誤,這在軟體開發中是不可避免的。因此,我們引入並研究了有錯誤程式碼補全問題,靈感來自於實時程式碼建議的現實情境,其中程式碼上下文包含可能的錯誤 - 反模式,這些反模式可能在完成的程式中變成錯誤。為了系統地研究這個任務,我們引入了兩個資料集:一個包含從語意改變運算子變更中衍生的合成錯誤(buggy-HumanEval),另一個包含從使用者提交的編碼問題中衍生的現實錯誤(buggy-FixEval)。我們發現,潛在錯誤的存在顯著降低了高效的Code-LLMs的生成效能。例如,當上下文中存在單個潛在錯誤時,CodeGen-2B-mono在buggy-HumanEval的測試案例通過率下降超過50%。最後,我們研究了幾種事後方法來緩解潛在錯誤的不良影響,並發現在事後緩解效能上仍存在較大差距。
神經表面重建已被證明在通過基於圖像的神經渲染恢復密集3D表面方面非常強大。然而,目前的方法在恢復真實場景的細節結構方面存在困難。為解決此問題,我們提出了Neuralangelo,它結合了多分辨率3D哈希網格的表示能力與神經表面渲染。我們方法的兩個關鍵要素包括:(1)用於計算高階導數的數值梯度作為平滑操作,以及(2)在控制不同細節級別的哈希網格上進行由粗到細的優化。即使沒有輔助輸入,如深度,Neuralangelo也能從多視圖圖像中有效地恢復密集3D表面結構,其保真度顯著超越先前的方法,實現從RGB視頻捕獲中對大規模場景進行詳細重建。
隨著大型語言模型的發展,許多顯著的語言系統如ChatGPT已經蓬勃發展並在許多任務上取得驚人的成功,展示了基礎模型的令人難以置信的強大。為了發揮基礎模型在視覺任務上的能力,最近提出了一種名為Segment Anything Model(SAM)的視覺基礎模型,用於圖像分割,在許多下游2D任務上展現出強大的零樣本能力。然而,SAM是否能夠適應3D視覺任務尚未被探索,特別是3D物體檢測。在這個靈感的推動下,我們在本文中探索將SAM的零樣本能力應用於3D物體檢測。我們提出了一個以SAM為動力的BEV處理流程,用於檢測物體並在大規模Waymo開放數據集上取得了令人期待的結果。作為一次早期嘗試,我們的方法邁出了一步,朝著使用視覺基礎模型進行3D物體檢測的方向邁進,並提供了將它們的能力應用於3D視覺任務的機會。代碼已在https://github.com/DYZhang09/SAM3D 上發布。
本技術論文介紹了一個使用最近大規模語言模型(LLM)如GPT-3和ChatGPT的對話機器人系統。該系統集成了一個共話手勢生成系統,根據語音的概念含義選擇適當的手勢。我們的動機是探索如何利用LLM的最新進展來進行實際機器人應用,這有助於聊天機器人和LLM的發展。具體來說,通過利用LLM實現高度響應的聊天機器人系統的開發,並將視覺效果添加到LLM的用戶界面作為附加價值。系統的源代碼可在GitHub上找到,分別針對我們內部機器人(https://github.com/microsoft/LabanotationSuite/tree/master/MSRAbotChatSimulation)和Toyota HSR(https://github.com/microsoft/GPT-Enabled-HSR-CoSpeechGestures)。
基於自回歸模型的文本有時會生成重複且低質量的輸出,因為在生成步驟中錯誤會累積。這個問題通常被歸因於曝光偏差 - 模型在訓練時與推斷時的差異。去噪擴散模型提供了一種替代方法,其中模型可以重新訪問並修訂其輸出。然而,它們可能在計算上昂貴,先前在文本上的努力導致的模型生成的輸出比自回歸模型產生的輸出不太流暢,特別是對於較長的文本和段落。在本文中,我們提出了PLANNER,一種結合潛在語義擴散和自回歸生成的模型,以在段落上進行全局控制的方式生成流暢的文本。該模型通過將自回歸的“解碼”模塊與使用潛在擴散以粗到細的方式生成語義段落嵌入的“規劃”模塊相結合來實現這一目標。所提出的方法在各種條件生成任務上進行了評估,並在語義生成、文本補全和摘要方面的結果表明了其在以高效方式生成高質量長文本方面的有效性。
以對比圖像-文本匹配損失(如P(match|text, image))進行區分性預訓練的視覺語言模型(VLMs)被批評缺乏組成理解。這意味著即使原始標題被重新排列為不同的語義陳述,它們可能輸出相似的分數。為解決這個問題,我們建議使用P(text|image)的{bf V}isual {bf G}enerative {bf P}re-{bf T}raining Score({bf VisualGPTScore}),這是一個多模態生成分數,通過使用圖像條件語言模型來捕獲在圖像條件下的文本標題的可能性。與VLMs僅僅是詞袋模型的觀點相反,我們的現成VisualGPTScore在最近提出的評估組成推理的圖像-文本檢索基準(如ARO和Crepe)上展現了頂尖性能。此外,我們將VisualGPTScore分解為邊際P(text)和點對點互信息(PMI)的乘積。這有助於(a)診斷具有強語言偏見的數據集,以及(b)使用信息理論框架對其他基準(如Winoground)進行去偏置處理。VisualGPTScore提供了有價值的見解,並為未來評估視覺語言組成性提供了堅實的基準。
在網際網路規模的數據上訓練的大型文本到視頻模型展示了在從任意文本描述生成高保真視頻方面的卓越能力。然而,將這些模型適應到具有有限領域特定數據的任務,如動畫或機器人視頻,面臨著重大的計算挑戰,因為微調預訓練的大型模型可能成本過高。受到一個小的可修改組件(例如提示,前綴微調)如何使一個大型語言模型適應執行新任務而無需訪問模型權重的啟發,我們探討如何使一個大型預訓練文本到視頻模型適應各種下游領域和任務而無需微調。為了回答這個問題,我們提出了Video Adapter,它利用了大型預訓練視頻擴散模型的得分函數作為概率先驗,來引導生成一個特定任務的小型視頻模型。我們的實驗表明,Video Adapter 能夠將廣泛知識納入並保留大型預訓練視頻模型的高保真度,在特定任務的小型視頻模型中生成能夠在各種任務上生成高質量但專業化視頻,如動畫、自我中心建模以及模擬和現實世界機器人數據建模。更多視頻可在網站 https://video-adapter.github.io/ 上找到。
軟體漏洞給企業帶來重大成本。儘管在軟體漏洞檢測方法的研究和開發方面進行了大量努力,但仍然有未被發現的漏洞持續使軟體擁有者和使用者面臨風險。許多當前的漏洞檢測方法要求程式碼片段在進行檢測之前能夠編譯和構建。不幸的是,這導致了在注入漏洞和移除漏洞之間存在著長時間延遲,這可能會大幅增加修復漏洞的成本。我們認識到目前機器學習的進展可以用於在開發人員編寫程式碼時在EditTime上檢測到具有漏洞的程式碼模式,即使程式碼片段在語法上是不完整的。在本文中,我們提出了一個實用系統,利用大規模數據集中的具有漏洞的程式碼模式,運用深度學習學習超過250種漏洞類型的複雜表現形式,並在EditTime檢測到具有漏洞的程式碼模式。我們討論了在最先進的預訓練大型語言模型(LLMs)上的零樣本、少樣本和微調方法。我們展示了與最先進的漏洞檢測模型相比,我們的方法將技術水平提高了10%。我們還評估了我們的方法在由程式碼LLMs生成的程式碼中檢測漏洞。在一個高風險程式碼情景基準上的評估顯示漏洞減少高達90%。