每日精選AI研究論文及翻譯
大型語言模型的引入顯著推進了程式碼生成。然而,開源模型通常缺乏像GPT-4程式碼解譯器這樣的先進系統的執行能力和迭代改進。為了解決這個問題,我們介紹了OpenCodeInterpreter,這是一個旨在生成、執行和迭代改進程式碼的開源程式碼系統家族。OpenCodeInterpreter受Code-Feedback支持,該數據集包含68K個多輪互動,將執行和人類反饋整合到動態程式碼改進中。我們對OpenCodeInterpreter在HumanEval、MBPP等主要基準測試中的全面評估揭示了其優異表現。值得注意的是,OpenCodeInterpreter-33B在HumanEval和MBPP的平均值(以及EvalPlus的增強版本)上實現了83.2(76.4)的準確率,與GPT-4的84.2(76.2)幾乎不相上下,並且在從GPT-4獲得的合成人類反饋下進一步提升至91.6(84.6)。OpenCodeInterpreter縮小了開源程式碼生成模型與GPT-4程式碼解譯器等專有系統之間的差距。
儘管Transformer在各種應用場景中取得了巨大進展,但這類結構在解決複雜決策任務方面仍遠遠落後於傳統符號式規劃器。在這項研究中,我們展示了如何訓練Transformer來解決複雜的規劃任務,並提出了Searchformer,一個Transformer模型,可以在93.7%的時間內最佳地解決以前未見過的Sokoban益智遊戲,同時比標準A*搜索使用少達26.8%的搜索步驟。Searchformer是一個編碼器-解碼器Transformer模型,經道訓練以預測A*搜索的搜索動態。然後通過專家迭代進行微調,以執行比A*搜索更少的搜索步驟,同時生成最佳計劃。在我們的訓練方法中,A*搜索的搜索動態被表達為一個標記序列,概述了在符號式規劃期間何時將任務狀態添加和移除到搜索樹中。在我們對迷宮導航的消融研究中,我們發現Searchformer明顯優於直接預測最佳計劃的基線,並且模型大小小5-10倍,訓練數據集小10倍。我們還展示了Searchformer如何擴展到更大更複雜的決策任務,如Sokoban,提高了解決任務的百分比並縮短了搜索動態。
為了打造更具包容性的視覺語言模型(VLMs),本研究引入了一個名為Palo的大型多語種多模型。Palo提供了10種主要語言的視覺推理能力,包括英語、中文、印地語、西班牙語、法語、阿拉伯語、孟加拉語、俄語、烏爾都語和日語,總共涵蓋約sim5B人口(佔全球人口的65%)。我們的方法包括使用半自動化翻譯方法,將多模式指導數據集從英語調整到目標語言,利用一個經過微調的大型語言模型,確保高語言保真度的同時,由於最小的手動工作量,實現可擴展性。融合多樣化的指導集有助於提高跨多種語言的整體性能,尤其是對於印地語、阿拉伯語、孟加拉語和烏爾都語等少見語言。所得模型在三個規模(1.7B、7B和13B參數)上進行訓練,展示了泛化性和可擴展性,我們觀察到與強基準線相比有顯著改進。我們還提出了首個多語種多模式基準測試,用於評估未來方法的視覺語言推理能力跨語言。程式碼:https://github.com/mbzuai-oryx/PALO。
我們提出了TinyLLaVA框架,該框架提供了在設計和分析小型大型多模型模型(LMMs)時的統一視角。我們通過實證研究了不同視覺編碼器、連接模塊、語言模型、訓練數據和訓練配方的影響。我們廣泛的實驗表明,更好的數據質量結合更好的訓練配方,較小的LMMs可以在整體表現上與更大的LMMs保持一致。在我們的框架下,我們訓練了一系列小型LMMs。我們最佳模型TinyLLaVA-3.1B,在整體性能上優於現有的7B模型,如LLaVA-1.5和Qwen-VL。我們希望我們的研究結果可以作為未來在數據擴展、訓練設置和模型選擇方面的基準。我們的模型權重和代碼將被公開。
基於 Transformer 的視覺模型通常將影像分詞為固定大小的方形區塊作為輸入單元,這種做法缺乏對影像內容的適應性,並忽略了內在的像素分組結構。受語言模型廣泛採用的次詞分詞啟發,我們提出了一種在子物件級別上進行影像分詞的方法,其中子物件由通過分割模型(例如,segment anything 模型)獲得的語義上有意義的影像片段表示。為了實現基於子物件分詞的學習系統,我們首先引入了一個序列到序列自編碼器(SeqAE),將不同大小和形狀的子物件片段壓縮為緊湊的嵌入向量,然後將子物件嵌入輸入到大型語言模型中進行視覺語言學習。實證結果表明,相較於傳統的區塊級別分詞,我們的子物件級別分詞顯著促進了將影像翻譯為物件和屬性描述的高效學習。代碼和模型將在 https://github.com/ChenDelong1999/subobjects 上開源。
隨著大型語言模型(LLMs)的快速發展,多智能體應用取得了顯著進展。然而,在協調智能體合作和LLMs表現不穩定的複雜性方面,開發強大且高效的多智能體應用面臨顯著挑戰。為應對這些挑戰,我們提出AgentScope,一個以開發者為中心的多智能體平台,其核心通信機制為消息交換。結合豐富的語法工具、內建資源和用戶友好的互動,我們的通信機制顯著降低了開發和理解的障礙。為實現強大且靈活的多智能體應用,AgentScope提供內建和可定制的容錯機制,同時配備系統級支持,用於多模態數據的生成、存儲和傳輸。此外,我們設計了基於演員的分發框架,實現本地和分佈式部署之間的輕鬆轉換,以及無需額外努力的自動並行優化。憑藉這些功能,AgentScope賦予開發者構建充分發揮智能智能體潛力的應用的能力。我們已在https://github.com/modelscope/agentscope 上發布了AgentScope,並希望AgentScope能在這個快速發展的領域中吸引更廣泛的參與和創新。
在實驗設計的廣泛領域中,回歸一直是一個強大的工具,可以準確預測系統或模型的結果指標,只要給定一組參數,但傳統上僅限於適用於特定任務的方法。在本文中,我們提出了OmniPred,一個框架,用於訓練語言模型作為通用的端到端回歸器,適用於來自多樣真實世界實驗的(x,y)評估數據。通過使用來自Google Vizier的數據來源,這是全球最大的黑盒優化數據庫之一,我們的大量實驗表明,僅通過數學參數和數值的文本表示,語言模型能夠進行非常精確的數值回歸,如果有機會在多個任務上進行訓練,它們可以顯著優於傳統的回歸模型。
對於高品質圖像生成,從擴散概率模型(DPMs)進行抽樣通常是昂貴的,通常需要多個步驟以及一個龐大的模型。本文介紹了一種名為Trajectory Stitching T-Stitch的抽樣技術,這是一種簡單而高效的技術,可以提高抽樣效率,並幾乎不會導致生成品質下降。T-Stitch不僅僅使用一個大型DPM進行整個抽樣軌跡,而是首先在初始步驟中利用一個較小的DPM作為較便宜的替代品,並在後續階段切換到較大的DPM。我們的關鍵見解是,不同的擴散模型在相同的訓練數據分佈下學習到類似的編碼,而較小的模型能夠在早期步驟生成良好的全局結構。大量實驗表明,T-Stitch無需訓練,通常適用於不同的架構,並且可以與大多數現有的快速抽樣技術相結合,實現靈活的速度和質量折衷。例如,在DiT-XL上,可以安全地將40%的早期時間步驟替換為速度快10倍的DiT-S,而在類條件ImageNet生成中不會降低性能。我們進一步展示,我們的方法不僅可以用作加速流行的預訓練穩定擴散(SD)模型的替代技術,還可以改善從公共模型庫中提取的風格化SD模型的提示對齊。代碼已在https://github.com/NVlabs/T-Stitch上發布。
在低資源語言中的數據稀缺問題可以通過使用雙語詞典,從高資源語言中標記的任務數據進行詞對詞翻譯來解決。然而,雙語詞典通常與任務數據的詞彙重疊有限,導致翻譯覆蓋率和詞典利用率不佳。我們提出了一種稱為詞典條件數據生成(LexC-Gen)的方法,可以大規模生成低資源語言的分類任務數據。具體來說,LexC-Gen首先使用雙語詞典中的高資源語言詞彙生成與詞典相容的任務數據,然後通過詞彙翻譯將其翻譯為低資源語言。在17種極低資源語言中,LexC-Gen生成的數據與專家翻譯的標金數據相競爭,並在情感分析和主題分類任務上分別平均提高了5.6和8.9個分數,優於現有基於詞典的詞彙翻譯方法。我們表明,以雙語詞典為條件是LexC-Gen的關鍵組成部分。LexC-Gen也很實用,僅需一個單GPU即可大規模生成數據。它與開放存取的LLMs配合良好,成本僅為基於GPT4的多語種數據生成的五分之一。
將大型語言模型(LLMs)整合到開發環境(IDEs)已成為現代軟體開發的焦點。像是OpenAI GPT-3.5/4和Code Llama等LLMs提供了顯著增強開發者生產力的潛力,因為它們可以作為智能、基於對話的程式設計助手。然而,直接使用LLMs可能不夠適合特定情境。相反,每個系統都需要調整LLM以符合其啟發式集,以確保最佳效能。本文介紹Copilot評估工具組:這是一套用於評估LLM引導的IDE互動的資料和工具,涵蓋各種程式設計情境和語言。我們提出的評量指標比先前最先進的評估系統更為全面和資訊密集。我們為多種開發者任務設計並計算靜態和執行基礎的成功指標,包括從自然語言生成程式碼(生成)、從程式碼生成文件(文件)、測試案例生成(測試)、錯誤修復(修復)以及工作區理解和查詢解決(工作區)。這些成功指標旨在評估LLMs在特定IDE及其相應參數空間中的表現。我們從使用這些指標評估三個常見LLMs中獲得的經驗,可為LLM引導的IDE中未來情境的開發和驗證提供參考。
在這項工作中,我們解決了去噪手物互動(HOI)的挑戰性問題。給定一個錯誤的互動序列,目標是對不正確的手部軌跡進行精煉,以消除互動產生的藝術效果,使序列在感知上更加真實。這個挑戰涉及複雜的互動噪聲,包括不自然的手部姿勢和不正確的手物關係,同時需要對新的互動和不同的噪聲模式進行強大的泛化。我們通過一種新穎的方法GeneOH Diffusion 解決了這些挑戰,其中包括兩個關鍵設計:一種名為GeneOH的創新接觸中心的HOI表示形式,以及一種新的具有通用性的去噪方案。接觸中心的表示形式GeneOH 對HOI過程進行了信息化參數化,有助於在各種HOI情境中實現增強泛化。新的去噪方案包括一個經典的去噪模型,用於將從白化噪聲空間中的嘈雜數據樣本投影到乾淨的數據流形,以及一種“通過擴散去噪”的策略,通過首先將具有各種噪聲模式的輸入軌跡擴散以與白化噪聲空間對齊,然後通過經典的去噪器進行清理。在四個具有顯著領域變化的基準測試上進行的大量實驗表明了我們方法的卓越有效性。GeneOH Diffusion 也展示了在各種下游應用中的潛力。項目網站:https://meowuu7.github.io/GeneOH-Diffusion/。
大型語言模型(LLMs)是內容審查的強大工具,但其推論成本和延遲使它們在大型數據集上的非正式使用變得困難,例如Google廣告存儲庫。本研究提出了一種方法,用於在Google廣告中擴展LLM審查以進行內容審查。首先,我們使用啟發式方法通過過濾和去重來選擇候選廣告,並為這些廣告創建廣告群集,從中選擇一個代表性廣告。然後,我們使用LLMs僅審查代表性廣告。最後,我們將代表性廣告的LLM決策傳播回它們的群集。這種方法將審查數量減少了超過3個量級,同時與基準非LLM模型相比,實現了2倍的召回率。這種方法的成功與用於聚類和標籤傳播的表示的功能密切相關;我們發現跨模態相似性表示比單模態表示產生更好的結果。
大規模文本到圖像模型使得廣泛的圖像編輯技術成為可能,使用文本提示甚至空間控制。然而,將這些編輯方法應用於描繪單一場景的多視圖影像會導致3D不一致的結果。在這項工作中,我們專注於基於空間控制的幾何操作,並介紹一種方法來統一各種視角下的編輯過程。我們基於兩個見解進行研究:(1) 在生成過程中保持一致的特徵有助於實現多視圖編輯的一致性,以及(2) 自注意力層中的查詢顯著影響圖像結構。因此,我們提出通過強化查詢的一致性來改善編輯圖像的幾何一致性。為此,我們引入了QNeRF,這是一個基於編輯圖像的內部查詢特徵訓練的神經輻射場。一旦訓練完成,QNeRF能夠渲染出3D一致的查詢,然後在生成過程中軟性注入回自注意力層,大大提高多視圖的一致性。我們通過一種逐步迭代的方法來完善這個過程,更好地統一了擴散時間步中的查詢。我們將我們的方法與一系列現有技術進行比較,並證明它能夠實現更好的多視圖一致性,並對輸入場景具有更高的保真度。這些優勢使我們能夠訓練出具有更少視覺瑕疵且更好符合目標幾何形狀的NeRF。
最近,3D 高斯飛濺(3DGS)的出現在神經渲染領域引發了一場革命,實現了高質量渲染的實時速度。然而,3DGS 在很大程度上依賴由運動結構(SfM)技術產生的初始化點雲。當處理不可避免包含無紋理表面的大型場景時,SfM 技術總是無法在這些表面產生足夠的點,並且無法為 3DGS 提供良好的初始化。因此,3DGS 面臨著困難的優化和低質量渲染。在本文中,受到經典多視圖立體(MVS)技術的啟發,我們提出了 GaussianPro,一種新穎的方法,應用漸進式傳播策略來引導 3D 高斯飛濺的密集化。與 3DGS 中使用的簡單分割和克隆策略相比,我們的方法利用場景現有重建幾何的先驗知識和補丁匹配技術來生成具有準確位置和方向的新高斯飛濺。在大型和小型場景上的實驗驗證了我們方法的有效性,在 Waymo 數據集上,我們的方法明顯優於 3DGS,PSNR 方面提高了 1.15dB。
我們介紹了 CyberDemo,這是一種新穎的機器人模仿學習方法,利用模擬人類示範來執行真實世界任務。通過在模擬環境中加入大量數據擴增,CyberDemo 在轉移到真實世界時優於傳統的同領域真實世界示範,能處理多樣的物理和視覺條件。儘管在數據收集方面具有可負擔性和便利性,CyberDemo 在各種任務的成功率方面優於基準方法,展現對先前未見物體的泛化能力。例如,它可以旋轉新穎的四閥和五閥,儘管人類示範只涉及三閥。我們的研究展示了模擬人類示範對於真實世界靈巧操作任務具有重要潛力。更多詳細信息請參閱 https://cyber-demo.github.io
作為一種有前途的3D生成技術,多視圖擴散(MVD)因其在泛化性、質量和效率方面的優勢而受到廣泛關注。通過微調預訓練的大型圖像擴散模型以3D數據,MVD方法首先基於圖像或文本提示生成3D物體的多個視圖,然後通過多視圖3D重建重建3D形狀。然而,生成的圖像中稀疏的視圖和不一致的細節使得3D重建具有挑戰性。我們提出了MVD^2,這是一種用於多視圖擴散(MVD)圖像的高效3D重建方法。MVD^2通過投影和卷積將圖像特徵聚合成3D特徵體積,然後將體積特徵解碼為3D網格。我們使用3D形狀集和由3D形狀的渲染視圖提示的MVD圖像來訓練MVD^2。為了解決生成的多視圖圖像與3D形狀的地面真實視圖之間的差異,我們設計了一種簡單但高效的視圖依賴訓練方案。MVD^2提高了MVD的3D生成質量,對各種MVD方法都快速且堅固。訓練後,它可以在一秒內有效地從多視圖圖像解碼3D網格。我們使用Zero-123++和ObjectVerse-LVIS 3D數據集來訓練MVD^2,並展示了它在從不同MVD方法生成的多視圖圖像中生成3D模型方面的優越性能,使用合成和真實圖像作為提示。
最近的研究已經證明,特別是線性注意力模型的變壓器,在前向推理步驟中對提供的上下文數據隱式執行類似梯度下降的算法。然而,它們在處理更複雜問題方面的能力尚未被探索。在本文中,我們證明任何線性變壓器都保持隱式線性模型,並可被解釋為執行一種變形的預條件梯度下降。我們還研究了線性變壓器在一個具有挑戰性情境中的應用,其中訓練數據受到不同程度噪音干擾。顯著的是,我們證明對於這個問題,線性變壓器發現了一種複雜且高效的優化算法,超越或與許多合理基準相匹敵。我們逆向工程這個算法,並展示它是一種新穎方法,結合了基於噪音水平的動量和自適應重縮放。我們的研究結果表明,即使是線性變壓器也具有發現複雜優化策略的驚人能力。
模仿學習是從示範中學習策略,而無需手動設計獎勵函數。在許多機器人任務中,如自主賽車,模仿的策略必須建模複雜的環境動態和人類決策。序列建模在捕捉運動序列的細微模式方面非常有效,但在適應新環境或分布轉移方面卻遇到困難,這在真實世界的機器人任務中很常見。相比之下,對抗式模仿學習(AIL)可以緩解這種影響,但在樣本效率和處理複雜運動模式方面卻遇到困難。因此,我們提出了BeTAIL:行為轉換器對抗式模仿學習,它將來自人類示範的行為轉換器(BeT)策略與在線AIL相結合。BeTAIL將一個AIL剩餘策略添加到BeT策略中,以模擬人類專家的順序決策過程,並對分布外狀態或環境動態的變化進行校正。我們在三個具有Gran Turismo Sport真實人類遊戲示範的挑戰上測試了BeTAIL。我們提出的剩餘BeTAIL減少了環境交互作用,提高了賽車表現和穩定性,即使BeT是在不同賽道上預先訓練的,也能改善下游學習。視頻和代碼可在以下網址找到:https://sites.google.com/berkeley.edu/BeTAIL/home。