每日精選AI研究論文及翻譯
軟體是我們人類手中最強大的工具之一;它讓熟練的程式設計師能以複雜而深遠的方式與世界互動。與此同時,由於大型語言模型(LLMs)的改進,人工智慧代理也有了快速發展,這些代理可以與周圍環境互動並產生影響。在本文中,我們介紹了OpenDevin,這是一個用於開發功能強大且靈活的人工智慧代理的平台,這些代理與人類開發者類似地通過編寫程式碼、與命令列互動和瀏覽網頁來與世界互動。我們描述了這個平台如何實現新代理、與用於程式碼執行的沙箱環境進行安全互動、協調多個代理之間的互動以及整合評估基準。基於我們目前整合的基準,我們對超過15個具有挑戰性的任務進行了代理評估,包括軟體工程(例如SWE-Bench)和網頁瀏覽(例如WebArena)等。OpenDevin以寬鬆的MIT許可證發布,是一個跨越學術界和工業界的社區項目,有來自160多位貢獻者的超過1.3K次貢獻,並將不斷改進。
視覺語言模型(VLMs)已迅速發展,受到大型語言模型(LLMs)成功的推動。儘管模型架構和訓練基礎設施迅速發展,但數據策劃仍未得到充分探索。當數據的數量和質量成為瓶頸時,現有的工作要麼直接從互聯網中爬取更多沒有數據質量保證的原始數據,要麼從黑盒商業模型(例如GPT-4V / Gemini)中提煉,這將使性能上限受到該模型的限制。在這項工作中,我們引入了一種新方法,其中包括自我增強步驟和專家增強步驟,以迭代地提高數據質量和模型性能。在自我增強步驟中,VLM重新為其自身的預訓練數據加上標題以增強數據質量,然後從頭開始使用這個精煉的數據集進行重新訓練以提高模型性能。這個過程可以迭代多輪。一旦自我增強達到飽和,我們使用幾個從自我增強的VLM中微調的專家VLM,具有特定領域專業知識,通過面向任務的重新標題和重新訓練進一步將專家知識融入通用VLM中。通過結合自我增強和專家增強的訓練,我們引入了VILA^2(VILA-增強-VILA),這是一個VLM家族,通過在各種任務上持續提高準確性,並在MMMU排行榜上取得了新的最先進結果,超越了開源模型。
人類影像動畫涉及從角色照片生成視頻,允許用戶控制並開啟視頻和電影製作的潛力。儘管最近的方法利用高質量的訓練數據取得了令人印象深刻的成果,但這些數據集的不可及性阻礙了公平和透明的基準測試。此外,這些方法優先考慮2D人體運動,忽略了視頻中相機運動的重要性,導致控制能力有限且視頻生成不穩定。為了揭開訓練數據的神秘面紗,我們提出了HumanVid,這是第一個針對人類影像動畫量身定制的大規模高質量數據集,結合了精心製作的現實世界和合成數據。對於現實世界的數據,我們從互聯網上編譯了大量的免版稅現實世界視頻。通過一個精心設計的基於規則的過濾策略,我們確保包含高質量的視頻,從而獲得一個包含20K個以人為中心的1080P分辨率視頻的集合。使用2D姿勢估計器和基於SLAM的方法完成人體和相機運動標註。對於合成數據,我們收集了2,300個免版稅的3D角色資產,以增強現有的可用3D資產。值得注意的是,我們引入了基於規則的相機軌跡生成方法,使合成管道能夠融入多樣且精確的相機運動標註,這在現實世界數據中很少見。為驗證HumanVid的有效性,我們建立了一個名為CamAnimate的基準模型,即相機可控人體動畫,考慮了人體和相機運動作為條件。通過大量實驗,我們展示了在我們的HumanVid上進行的這種簡單基準訓練實現了控制人體姿勢和相機運動的最新性能,創立了一個新的基準。代碼和數據將在https://github.com/zhenzhiwang/HumanVid/ 上公開提供。
儘管大型語言模型(LLMs)在各種應用中擁有先進的智能能力,但它們仍然面臨著重大的計算和存儲需求。知識蒸餾(KD)已經成為一種有效的策略,通過從高性能的LLM(即教師模型)轉移知識來提高較小LLM(即學生模型)的性能。LLM蒸餾中流行的技術通常使用黑盒模型API生成高質量的預訓練和對齊數據集,或者利用白盒蒸餾通過改變損失函數來更好地從教師LLM轉移知識。然而,這些方法忽略了學生和教師LLMs之間跨領域知識差異,這導致過度關注在性能差距較小的領域上,而對性能差距較大的領域則關注不足,降低了整體性能。在本文中,我們介紹了一種名為DDK的新型LLM蒸餾框架,根據教師和學生模型之間的領域性能差異,動態調整蒸餾數據集的組成,使蒸餾過程更穩定和有效。廣泛的評估顯示,DDK顯著提高了學生模型的性能,遠遠優於持續預訓練基線和現有的知識蒸餾方法。
語言模型(LMs)的快速發展需要與多元使用者價值觀進行堅固的對齊。然而,目前的偏好優化方法常常無法捕捉使用者意見的多樣性,反而強化多數觀點並邊緣化少數派觀點。我們引入了PERSONA,一個可重現的測試平台,旨在評估和改善LMs的多元對齊。我們從美國人口普查數據中程序生成多樣的使用者檔案,產生了1,586個具有不同人口統計和特殊屬性的合成人物。然後,我們生成了一個大規模的評估數據集,包含3,868個提示和317,200個從我們的合成人物獲得的反饋對。利用這個數據集,我們系統地評估LM在扮演多樣使用者方面的能力,通過人類評審的驗證,並建立了一個用於多元對齊方法的基準,即PERSONA Bench,以及一個用於創建新的和未來基準的廣泛數據集。完整的數據集和基準可在以下網址找到:https://www.synthlabs.ai/research/persona。
現代人工智慧方法(如大型語言模型LLMs)最基本的能力是能夠預測長序列中的下一個標記,這稱為「序列建模」。儘管Transformer模型是目前主導的序列建模方法,但其與序列長度相關的二次計算成本是一個顯著的缺點。狀態空間模型(SSMs)由於其線性解碼效率和高度可並行化的訓練而提供了一個有前途的替代方案。然而,現有的SSMs通常依賴看似特定的線性遞歸設計。在這項工作中,我們通過在線學習的觀點探索SSM設計,將SSMs概念化為特定在線學習問題的元模塊。這種方法將SSM設計與制定精確的在線學習目標相關聯,並從優化這些目標中衍生出狀態轉換規則。基於這一見解,我們引入了一種基於隱式更新的新型深度SSM架構,用於優化在線回歸目標。我們的實驗結果顯示,我們的模型在標準序列建模基準和語言建模任務中優於最先進的SSMs,包括Mamba模型。
我們提出了穩定影片4D(SV4D),這是一種潛在的影片擴散模型,用於多幀和多視角一致的動態3D內容生成。與先前依賴分別訓練生成模型進行影片生成和新視角合成的方法不同,我們設計了一個統一的擴散模型,用於生成動態3D物體的新視角影片。具體而言,給定一個單眼參考影片,SV4D為每個影片幀生成在時間上一致的新視角。然後,我們使用生成的新視角影片來有效地優化一個隱式的4D表示(動態NeRF),而無需使用大多數先前作品中使用的繁瑣的基於SDS的優化。為了訓練我們的統一的新視角影片生成模型,我們從現有的Objaverse數據集中精心挑選了一個動態3D物體數據集。在多個數據集和用戶研究上進行的廣泛實驗結果顯示,與先前作品相比,SV4D在新視角影片合成和4D生成方面表現出色。
我們能賦予視覺運動機器人在各種多樣的開放式場景中操作的泛化能力嗎?在本文中,我們提出了Maniwhere,這是一個針對視覺強化學習量身定制的通用框架,使訓練過的機器人策略能夠在多種視覺干擾類型的組合中實現泛化。具體來說,我們引入了一種多視圖表示學習方法,融合了空間變換網絡(STN)模塊,以捕獲不同視點之間的共享語義信息和對應。此外,我們採用基於課程的隨機化和擴增方法來穩定強化學習訓練過程,增強視覺泛化能力。為了展示Maniwhere的有效性,我們精心設計了8個任務,包括具體對象、雙手操作和靈巧手操作任務,展示了Maniwhere在3個硬件平台上的強大視覺泛化和從模擬到真實的轉移能力。我們的實驗表明,Maniwhere明顯優於現有的最先進方法。視頻可在https://gemcollector.github.io/maniwhere/ 上查看。
不同使用者對於相同提示生成的圖像有不同的偏好。這導致了個性化圖像生成,涉及創建符合個人視覺喜好的圖像。然而,目前的生成模型是不個性化的,因為它們被調整為產生對廣大觀眾有吸引力的輸出。將它們用於生成符合個別使用者的圖像依賴於使用者進行迭代手動提示工程,這是低效且不理想的。我們提出通過首先在一次過程中捕捉使用者的通用偏好來個性化圖像生成過程,邀請他們對少量圖像發表評論,解釋他們喜歡或不喜歡每張圖像的原因。根據這些評論,我們利用大型語言模型推斷使用者的結構化喜歡和不喜歡的視覺特徵,即他們的視覺偏好。這些特徵被用來引導文本到圖像模型,使其生成的圖像調整為個別使用者的視覺喜好。通過一系列使用者研究和大型語言模型引導的評估,我們展示了所提出的方法導致生成物與個別使用者的視覺喜好非常吻合。
為了提高大型語言模型的訓練和推論的計算效率,機器學習加速硬體引入了像是float8這樣的低精度格式。然而,由於需要複雜且有時脆弱的技術來匹配更高精度的訓練準確性,這種格式的採用速度被機器學習社群放緩。在這項工作中,我們提出了Scalify,一種端對端的尺度傳播範式,用於計算圖,通用化和正式化現有的張量縮放方法。實驗結果顯示,Scalify支持開箱即用的float8矩陣乘法和梯度表示,以及float16優化器狀態存儲。我們針對Scalify的JAX實現已在https://github.com/graphcore-research/jax-scalify上開源。
許多具有挑戰性的任務,如管理交通系統、電力網格或供應鏈,涉及複雜的決策過程,必須平衡多個相互衝突的目標並協調各種獨立決策者(DMs)的行動。一種形式化和應對此類任務的觀點是多目標多智能體強化學習(MOMARL)。MOMARL將強化學習(RL)擴展到需要考慮多個目標的多個智能體的問題中。在強化學習研究中,基準測試對於促進進展、評估和可重複性至關重要。基準測試的重要性凸顯了為各種RL範式開發的眾多基準框架的存在,包括單智能體RL(例如Gymnasium)、多智能體RL(例如PettingZoo)和單智能體多目標RL(例如MO-Gymnasium)。為了支持MOMARL領域的進展,我們介紹了MOMAland,這是第一個為多目標多智能體強化學習提供標準化環境的集合。MOMAland滿足了這一新興領域中全面基準測試的需求,提供了超過10個不同的環境,這些環境在智能體數量、狀態表示、獎勵結構和效用考慮方面各不相同。為了為未來研究提供強大的基準線,MOMAland還包括能夠在這些環境中學習策略的算法。
近年來,擴散生成的圖像大幅增加,對當前的檢測技術提出了獨特挑戰。儘管識別這些圖像的任務屬於二元分類,看似簡單的類別,但當採用“重建再比較”技術時,計算負載是顯著的。這種方法被稱為DIRE(擴散重建誤差),不僅可以識別擴散生成的圖像,還可以檢測由GANs生成的圖像,突顯了該技術的廣泛應用性。為了應對計算挑戰並提高效率,我們提出提煉擴散模型中嵌入的知識,以開發快速的深度偽造檢測模型。我們的方法旨在創建一個小型、快速、便宜且輕量級的擴散合成深度偽造檢測器,保持強大的性能同時顯著降低運行需求。通過保持性能,我們的實驗結果顯示推理速度比現有的DIRE框架快3.2倍。這一進展不僅增強了在現實世界環境中部署這些系統的實用性,還為未來旨在利用擴散模型知識的研究努力鋪平了道路。
自駕車行業通常聘請專業藝術家來建立精美的3D汽車。然而,製作大規模數位資產成本高昂。由於已經有許多包含大量汽車圖像的數據集可用,我們專注於從這些數據集中重建高質量的3D汽車模型。然而,這些數據集僅包含前進場景中汽車的一側。我們嘗試使用現有的生成模型提供更多監督信息,但由於它們是在合成數據集而非汽車特定數據集上訓練的,因此在汽車方面很難很好地泛化。此外,在處理野外圖像時,由於相機姿勢估計存在較大誤差,重建的3D汽車紋理會出現錯位。這些限制使得以前的方法難以重建完整的3D汽車。為解決這些問題,我們提出了一種名為DreamCar的新方法,可以重建高質量的3D汽車,即使只提供少量圖像甚至單張圖像。為了泛化生成模型,我們收集了一個名為Car360的汽車數據集,其中包含超過5,600輛車輛。通過這個數據集,我們使生成模型對汽車更加強健。我們使用這個針對汽車的生成先驗來引導其重建,通過得分蒸餾抽樣。為了進一步補充監督信息,我們利用汽車的幾何和外觀對稱性。最後,我們提出了一種姿勢優化方法,校正姿勢以解決紋理錯位問題。大量實驗表明,我們的方法在重建高質量的3D汽車方面明顯優於現有方法。我們的代碼可在https://xiaobiaodu.github.io/dreamcar-project/找到。