每日精選AI研究論文及翻譯
多智能體強化學習(MARL)在各種環境中解決合作和競爭性多智能體問題方面取得了顯著進展。MARL面臨的主要挑戰之一是需要明確預測智能體的行為以實現合作。為了解決這個問題,我們提出了共享遞歸記憶轉換器(SRMT),它將記憶轉換器擴展到多智能體設置中,通過汇集和全局廣播個別的工作記憶,使智能體能夠隱式交換信息並協調其行動。我們在部分可觀察多智能體路徑規劃問題中對SRMT進行評估,在這個玩具 Eng Bottleneck 導航任務中,智能體需要通過狹窄走廊,以及在 POGEMA 基準任務集上進行評估。在 Bottleneck 任務中,SRMT在各種強化學習基準中表現出色,特別是在稀疏獎勵下,並且能夠有效地推廣到比訓練中見過的更長走廊。在包括迷宮、隨機和 MovingAI 在內的 POGEMA 地圖上,SRMT與最近的MARL、混合和基於規劃的算法相媲美。這些結果表明,在基於轉換器的架構中融入共享遞歸記憶可以增強分散式多智能體系統中的協調。訓練和評估的源代碼可在 GitHub 上找到:https://github.com/Aloriosa/srmt。
通過糾正流技術,視頻生成取得了顯著進展,但問題如運動不流暢和視頻與提示之間的不對齊仍然存在。在這項工作中,我們開發了一個系統化流程,利用人類反饋來減輕這些問題並改進視頻生成模型。具體而言,我們首先構建了一個大規模的人類偏好數據集,專注於現代視頻生成模型,並納入跨多維度的成對標註。然後,我們引入了VideoReward,一個多維視頻獎勵模型,並研究標註和各種設計選擇如何影響其獎勵效果。從統一的強化學習角度出發,旨在通過KL正則化來最大化獎勵,我們通過擴展擴散模型中的算法,引入了三種基於流模型的對齊算法。這些包括兩種訓練時策略:直接偏好優化流(Flow-DPO)和獎勵加權回歸流(Flow-RWR),以及一種推理時技術,Flow-NRG,它將獎勵指導直接應用於嘈雜的視頻。實驗結果表明,VideoReward明顯優於現有的獎勵模型,而Flow-DPO相較於Flow-RWR和標準監督微調方法表現更優。此外,Flow-NRG允許用戶在推理過程中為多個目標分配自定義權重,滿足個性化視頻質量需求。項目頁面:https://gongyeliu.github.io/videoalign。
我們介紹了Sigma,一個專為系統領域而設的高效大型語言模型,採用了一種新穎的架構,包括DiffQKV注意力機制,並在我們精心收集的系統領域數據上進行了預訓練。DiffQKV注意力通過不同方式優化注意力機制中的查詢(Q)、鍵(K)和值(V)組件,根據它們對模型性能和效率指標的不同影響,顯著提高了Sigma的推理效率。具體來說,我們(1)進行了大量實驗,證明了模型對K和V組件壓縮的敏感性不同,從而發展了差異性壓縮的KV,以及(2)提出了擴展Q頭維度的增強型Q,這樣可以增強模型的表示能力,對推理速度幾乎沒有影響。嚴格的理論和實證分析表明,DiffQKV注意力顯著提高了效率,在長文本情況下,推理速度比傳統的分組查詢注意力(GQA)提高了高達33.36%。我們在各種來源的6T標記上對Sigma進行了預訓練,包括我們精心收集的195億系統領域數據和1T標記的合成和重寫數據。在一般領域中,Sigma達到了與其他最先進模型相當的性能。在系統領域中,我們引入了第一個全面基準AIMicius,Sigma在所有任務中展現出卓越的表現,絕對優於GPT-4,改善幅度高達52.5%。
在大型模型中廣泛探索的思維鏈(Chain-of-Thought,CoT)推理已用於應對複雜的理解任務。然而,尚不清楚這種策略是否適用於驗證和強化圖像生成方案。本文首次全面探討了CoT推理對增強自回歸圖像生成的潛力。我們專注於三種技術:為驗證擴展測試時間計算、將模型偏好與直接偏好優化(Direct Preference Optimization,DPO)對齊,以及將這些技術整合以產生互補效應。我們的結果表明,這些方法可以被有效地適應和結合,以顯著提高圖像生成性能。此外,考慮到獎勵模型在我們研究中的關鍵作用,我們提出了專為自回歸圖像生成而設的潛在評估獎勵模型(Potential Assessment Reward Model,PARM)和 PARM++。PARM通過潛在評估方法自適應評估每個生成步驟,融合現有獎勵模型的優勢,而PARM++進一步引入反射機制,以自我校正生成的不滿意圖像。利用我們研究的推理策略,我們增強了基準模型 Show-o,實現了卓越的結果,在 GenEval 基準測試中實現了顯著的 +24% 改善,超越 Stable Diffusion 3 的 +15%。我們希望本研究提供獨特的見解,為將CoT推理與自回歸圖像生成相結合開辟新途徑。代碼和模型已在 https://github.com/ZiyuGuo99/Image-Generation-CoT 釋出。
人類通過三個認知階段獲取知識:感知信息、理解知識,以及適應知識以解決新問題。視頻作為這種學習過程的有效媒介,有助於在這些認知階段之間進行進展。然而,現有的視頻基準未能系統評估大型多模型模型(LMMs)的知識獲取能力。為填補這一空白,我們引入了Video-MMMU,這是一個多模式、多學科基準,旨在評估LMMs從視頻中獲取和利用知識的能力。Video-MMMU 包含了300個專家級視頻和900個人工標註問題的精心收集,涵蓋六個學科,通過與階段對齊的問答對來評估知識獲取:感知、理解和適應。一個提出的知識增益指標,Δknowledge,量化了視頻觀看後性能的提高。對LMMs的評估顯示,在認知需求增加時,性能急劇下降,並突顯了人類和模型知識獲取之間的顯著差距,強調了需要改進LMMs從視頻中學習和適應的方法。
儘管在視頻大型多模型(video-LMMs)方面取得了顯著進展,但對於長格式視頻中的有效時間基準仍然是現有模型面臨的挑戰。為了解決這一限制,我們提出了一種名為時間偏好優化(Temporal Preference Optimization,TPO)的新型後訓練框架,旨在通過偏好學習來增強視頻-LMMs的時間基準能力。TPO採用自我訓練方法,使模型能夠通過利用兩個細粒度的精心策劃的偏好數據集來區分基準良好和不太準確的時間響應:局部時間基準,專注於特定視頻片段,以及全面時間基準,捕捉整個視頻序列中的擴展時間依賴性。通過對這些偏好數據集進行優化,TPO顯著增強了時間理解能力,同時減少了對手動標註數據的依賴。在三個長格式視頻理解基準測試LongVideoBench、MLVU和Video-MME上進行了大量實驗,展示了TPO在兩個最先進的視頻-LMMs上的有效性。值得注意的是,LLaVA-Video-TPO在Video-MME基準測試中確立了自己作為領先的7B模型的地位,突顯了TPO作為一種可擴展且高效的解決方案,用於推進長格式視頻理解中的時間推理潛力。項目頁面:https://ruili33.github.io/tpo_website。
隨著擴散模型的快速發展,文本到圖像(T2I)模型取得了顯著進展,在提示跟隨和圖像生成方面展示了令人印象深刻的能力。最近推出的模型,如FLUX.1和Ideogram2.0,以及其他模型如Dall-E3和Stable Diffusion 3,在各種複雜任務中展現出卓越表現,引發了關於T2I模型是否朝向通用應用的疑問。這些模型除了傳統的圖像生成外,還展示了跨越各個領域的能力,包括可控生成、圖像編輯、視頻、音頻、3D和運動生成,以及計算機視覺任務,如語義分割和深度估計。然而,目前的評估框架不足以全面評估這些模型在不斷擴展的領域中的表現。為了全面評估這些模型,我們開發了IMAGINE-E並測試了六個知名模型:FLUX.1、Ideogram2.0、Midjourney、Dall-E3、Stable Diffusion 3和Jimeng。我們的評估分為五個關鍵領域:結構化輸出生成、逼真性和物理一致性、特定領域生成、具有挑戰性場景生成以及多風格創建任務。這一全面評估突顯了每個模型的優勢和局限性,特別是FLUX.1和Ideogram2.0在結構化和特定領域任務中的優異表現,強調了T2I模型作為基礎AI工具的應用擴展和潛力。這項研究為T2I模型作為通用工具的現狀和未來發展軌跡提供了寶貴見解。評估腳本將在https://github.com/jylei16/Imagine-e 上發布。
近來,大型語言模型(LLMs)在數學推理方面展現出卓越的成功。儘管像是思維鏈提示和自洽抽樣等方法取得了進展,這些進展通常著重於最終正確性,而沒有確保基礎推理過程的一致性和可靠性。本文介紹了Step-KTO,一個結合過程層次和結果層次二元反饋的訓練框架,以引導LLMs走向更可信賴的推理軌跡。通過為中間推理步驟和最終答案提供二元評估,Step-KTO鼓勵模型遵循邏輯進展,而不是依賴表面的捷徑。我們在具有挑戰性的數學基準測試上的實驗表明,Step-KTO顯著提高了最終答案的準確性和中間推理步驟的質量。例如,在MATH-500數據集上,Step-KTO在Pass@1的準確性方面較強基線取得了顯著改善。這些結果突顯了將分步過程反饋整合到LLM訓練中的潛力,為實現更易解釋和可靠的推理能力打開了道路。
最近的視頻修補算法將基於流的像素傳播與基於Transformer的生成相結合,以利用光流來恢復紋理和對象,並利用來自相鄰幀的信息完成遮罩區域,同時通過視覺Transformer來完成。然而,這些方法在處理大遮罩時常常遇到模糊和時間不一致的問題,凸顯了需要具有增強生成能力的模型。最近,擴散模型作為圖像和視頻生成中的一項突出技術崛起,其表現令人印象深刻。在本文中,我們介紹了DiffuEraser,一種基於穩定擴散的視頻修補模型,旨在以更多細節和更一致的結構填補遮罩區域。我們結合先前信息提供初始化和弱條件,有助於減輕噪音異常並抑制幻覺。此外,為了在長序列推斷期間改善時間一致性,我們擴展了先前模型和DiffuEraser的時間感知域,並通過利用視頻擴散模型的時間平滑特性進一步增強一致性。實驗結果表明,我們提出的方法在內容完整性和時間一致性方面優於最先進的技術,同時保持可接受的效率。
研究人員提出了關於大型語言模型(LLMs)中幻覺的擔憂,然而在創造力至關重要的領域,如藥物發現,它們的潛力值得探索。本文提出了一個假設,即幻覺可以改善LLMs在藥物發現中的應用。為驗證這一假設,我們使用LLMs將分子的SMILES字符串用自然語言描述,然後將這些描述作為提示的一部分,以應對藥物發現中的特定任務。在七個LLMs和五個分類任務上進行評估後,我們的研究結果證實了這一假設:LLMs在包含幻覺文本時可以實現更好的性能。值得注意的是,Llama-3.1-8B相比沒有幻覺的基準線,ROC-AUC增益達到18.35%。此外,由GPT-4o生成的幻覺在各模型中提供了最一致的改進。此外,我們進行了實證分析和案例研究,以探討影響性能和潛在原因的關鍵因素。我們的研究為LLMs利用幻覺的潛在應用提供了新的視角,並為未來在藥物發現中利用LLMs的研究提供了新的觀點。
文本到圖像生成模型可以從輸入提示創建高質量圖像。然而,它們在支持保持故事中保持身份的一致生成方面存在困難。解決這個問題的現有方法通常需要在大型數據集上進行廣泛訓練,或對原始模型架構進行額外修改。這限制了它們在不同領域和多樣擴散模型配置中的應用。在本文中,我們首先觀察到語言模型的固有能力,即所謂的上下文一致性,通過單個提示理解身份。受固有上下文一致性的啟發,我們提出了一種新的無需訓練的方法,用於一致的文本到圖像(T2I)生成,稱為“一提示一故事”(1Prompt1Story)。我們的方法1Prompt1Story將所有提示串聯為T2I擴散模型的單個輸入,最初保留角色身份。然後,我們使用兩種新技術進行生成過程的精煉:奇異值重新加權和保持身份的交叉注意力,確保每個幀更好地與輸入描述對齊。在我們的實驗中,我們通過定量指標和定性評估將我們的方法與各種現有的一致T2I生成方法進行比較,以展示其有效性。代碼可在https://github.com/byliutao/1Prompt1Story找到。
最近在影片生成領域的進展對各種下游應用產生了顯著影響,特別是在保護身份的影片生成(IPT2V)方面。然而,現有方法在處理“複製-粘貼”瑕疵和低相似性問題時遇到困難,主要是由於它們過度依賴低級別的面部圖像信息。這種依賴可能導致面部外觀僵硬和反映無關細節的瑕疵。為應對這些挑戰,我們提出了EchoVideo,它採用兩個關鍵策略:(1)身份圖像-文本融合模塊(IITF),從文本中集成高級語義特徵,捕捉清晰的面部身份表示,同時丟棄遮擋、姿勢和光線變化,以避免引入瑕疵;(2)兩階段訓練策略,第二階段採用隨機方法,隨機利用淺層面部信息。其目標是在增強淺層特徵所提供的保真度的同時,減輕對它們的過度依賴。該策略鼓勵模型在訓練過程中利用高級特徵,從而最終培養出更強大的面部身份表示。EchoVideo有效地保留了面部身份並保持了全身完整性。大量實驗證明,它在生成高質量、可控性和保真度的影片方面取得了出色的結果。
對齊已具備能力模型與期望行為的常見方法依賴人類提供監督。然而,未來的超人類模型將超越人類的能力。因此,人類只能對超人類模型進行弱監督。這種預期的人類評估不足將削弱未來人工智慧系統的安全性。可擴展的監督和弱到強的泛化是應對這一問題的兩種互補方法。在本文中,我們試圖結合這兩種方法的優勢,以進一步改善對齊。具體而言,我們探討了通過強預訓練模型來改善人類監督的方式,然後用增強的弱人類監督來監督強模型。為了進行迭代的實證進展,我們考慮了一個類比:我們能否使用強模型來改善弱模型的監督,然後再用它來監督強模型?我們通過在地面真實標籤上對一個小型弱模型進行微調,並獲得來自大型強模型的額外幫助,然後通過弱模型生成的標籤對強模型進行微調來進行實證測試。我們發現辯論可以幫助弱模型從不可信的強模型中提取可信賴的信息,這在訓練弱模型時提供了樣本的上下文。我們還展示了一組弱模型有助於利用強模型辯論者生成的長論點,並獲得更穩健的監督估計。對OpenAI弱到強自然語言處理基準進行的大量實驗表明,結合方法導致更好的對齊,這表明辯論有助於幫助弱到強的泛化。
多模式大型語言模型(MLLMs)已顯示出顯著的進展,為具體代理人提供了一個有前途的未來。現有的用於評估MLLMs的基準主要使用靜態圖像或視頻,限制了評估範圍僅限於非互動場景。與此同時,現有的具體代理人人工智能基準是任務特定的,並且不夠多樣化,這無法充分評估MLLMs的具體能力。為了解決這個問題,我們提出了EmbodiedEval,這是一個針對MLLMs具體任務的全面互動評估基準。EmbodiedEval包含了328個不同任務,分佈在125個多樣的3D場景中,每個場景都經過嚴格選擇和標註。它涵蓋了廣泛的現有具體代理人人工智能任務,具有顯著增強的多樣性,全部在針對MLLMs量身定制的統一模擬和評估框架中進行。這些任務分為五個類別:導航、物體交互、社交交互、屬性問答和空間問答,以評估代理人的不同能力。我們在EmbodiedEval上評估了最先進的MLLMs,發現它們在具體任務上與人類水平相比存在顯著不足。我們的分析展示了現有MLLMs在具體能力方面的局限性,為其未來發展提供了見解。我們在https://github.com/thunlp/EmbodiedEval 開源了所有評估數據和模擬框架。
本文指出機器學習(ML)在很大程度上忽略了普遍智能的一個重要方面:對未知未來的魯棒性在開放世界中。這種魯棒性與經濟學中的Knightian不確定性(KU)有關,即無法量化的不確定性,在ML的關鍵形式主義中被排除在考慮之外。本文旨在識別這個盲點,論證其重要性,並促進研究以應對這一挑戰,我們認為這對於創建真正魯棒的開放世界AI是必要的。為了幫助闡明這個盲點,我們將機器學習的一個領域,強化學習(RL),與生物進化過程進行對比。儘管RL取得了驚人的持續進展,但在開放世界的情況下仍然面臨困難,通常在意想不到的情況下失敗。例如,將僅在美國接受培訓的自駕車政策零-shot轉移到英國的想法目前看來非常雄心勃勃。戲劇性對比的是,生物進化經常產生在開放世界中茁壯成長的代理人,有時甚至適應了非常不同的情況(例如入侵物種;或者人類,他們確實進行這種零-shot國際駕駛)。有趣的是,進化實現這種魯棒性而無需明確的理論、形式主義或數學梯度。我們探討了支撐RL典型形式主義的假設,展示了它們如何限制RL與不斷變化的複雜世界所特有的未知未知的互動。此外,我們確定了進化過程促進對新奇和不可預測挑戰的魯棒性的機制,並討論了將這些機制算法化的潛在途徑。結論是,ML仍存在引人入勝的脆弱性可能是由於其形式主義中的盲點,直接面對KU挑戰可能會帶來顯著收益。
大型語言模型(LLMs)需要大量的計算資源,因此必須增強其功能,而無需從頭重新訓練。在這個領域的一個關鍵挑戰是災難性遺忘(CF),它影響了連續預訓練(CPT)和連續監督微調(CSFT)期間的性能。我們提出了Control LLM,這是一種新穎的方法,利用平行預先訓練和擴展的Transformer模塊,通過插值策略對齊它們的隱藏狀態。這種方法有效地保留了現有任務的性能,同時無縫地整合新知識。 大量實驗證明了Control LLM在CPT和CSFT中的有效性。在Llama3.1-8B-Instruct上,它在數學推理(+14.4%在Math-Hard)和編碼性能(+10%在MBPP-PLUS)方面取得了顯著的改善。在Llama3.1-8B上,它增強了多語言能力(+10.6%在C-Eval,+6.8%在CMMLU,以及+30.2%在CMMLU-0shot-CoT)。它超越了現有方法,在從相同基礎模型調整的開源模型中實現了SOTA,同時使用的數據和計算量明顯較少。至關重要的是,這些收益是在保留強大原始功能的同時實現的,與開源數學和編碼模型相比,其降級最小(<4.3%在MMLU,而開源數學和編碼模型則超過35%)。這種方法已成功應用於LinkedIn的GenAI驅動的求職者和廣告單元產品中。 為了支持進一步的研究,我們釋出了訓練和評估代碼(https://github.com/linkedin/ControlLLM),以及在公共數據集上訓練的模型(https://huggingface.co/ControlLLM)供社區使用。
3D 高斯點陣技術已實現靜態場景的高效照片逼真渲染。最近的研究將這些方法擴展到支持表面重建和跟踪。然而,使用 3D 高斯函數跟踪動態表面仍然具有挑戰性,因為存在著複雜的拓撲變化,例如表面的出現、消失或分裂。為應對這些挑戰,我們提出了一種新方法 GSTAR,實現了對於具有變化拓撲的一般動態場景的照片逼真渲染、準確表面重建和可靠的 3D 跟踪。給定多視圖捕獲作為輸入,GSTAR 將高斯函數綁定到網格面以表示動態物體。對於具有一致拓撲的表面,GSTAR 保持網格拓撲並使用高斯函數跟踪網格。在拓撲變化的區域,GSTAR 自適應地從網格解除高斯函數的綁定,實現準確的配准並基於這些優化的高斯函數生成新表面。此外,我們引入了一種基於表面的場景流方法,為幀間跟踪提供了堅固的初始化。實驗證明我們的方法有效地跟踪和重建動態表面,實現了一系列應用。我們的項目頁面及代碼發布可在 https://eth-ait.github.io/GSTAR/ 找到。