ChatPaper.aiChatPaper.ai
首頁

arXiv

HuggingFace

定價賬戶工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文每日精選

每日精選AI研究論文及翻譯

1

WALL-E:通過規則學習改善基於世界模型的LLM代理
WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents

Oct 9
BySiyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang
51
3

大型語言模型(LLMs)可以直接作為基於模型的代理人強大的世界模型嗎?儘管存在LLMs的先前知識與指定環境動態之間的差距,但我們的研究顯示這些差距可以通過將LLM與其部署的環境對齊來彌合,而這種“世界對齊”可以通過在LLMs上進行規則學習來有效實現。鑒於LLMs豐富的先前知識,僅需一些額外的規則就足以將LLM的預測與指定環境動態對齊。為此,我們提出了一種神經符號方法,通過LLMs無梯度地學習這些規則,通過對代理人探索的軌跡和世界模型預測進行比較來誘導、更新和修剪規則。所得的世界模型由LLM和學習到的規則組成。我們的具體化LLM代理人“WALL-E”建立在模型預測控制(MPC)之上。通過基於精確世界模型優化前瞻行動,MPC顯著提高了探索和學習效率。與現有的LLM代理人相比,WALL-E的推理只需要少數主要規則,而不需要在LLM輸入中包含冗長的緩衝軌跡。在Minecraft和ALFWorld的開放世界挑戰中,WALL-E的成功率高於現有方法,重新規劃時間和用於推理的令牌數量成本更低。在Minecraft中,WALL-E的成功率超過基準線15-30%,同時重新規劃輪數減少8-20,僅使用60-80%的令牌。在ALFWorld中,僅經過6次迭代後,其成功率飆升至95%,創下新的歷史記錄。

2

MathCoder2:在模型翻譯的數學代碼上持續預訓練以提升數學推理
MathCoder2: Better Math Reasoning from Continued Pretraining on Model-translated Mathematical Code

Oct 10
ByZimu Lu, Aojun Zhou, Ke Wang, Houxing Ren, Weikang Shi, Junting Pan, Mingjie Zhan, Hongsheng Li
47
2

代碼已被證明對於增強大型語言模型的數學推理能力具有效果,這是由於其精確性和準確性。先前涉及持續數學預訓練的作品通常包括使用與數學相關的套件的代碼,這些套件主要設計用於工程、機器學習、信號處理或模組測試等領域,而非直接專注於數學推理。在本文中,我們介紹了一種新方法,用於生成伴隨相應推理步驟的數學代碼以進行持續預訓練。我們的方法始於通過合併與數學相關的網絡數據、使用數學套件的代碼、數學教科書和合成數據構建高質量的數學持續預訓練數據集。接下來,我們通過從先前收集的數據集中提取LaTeX表達式、表達式所需的條件以及表達式的結果來構建推理步驟。基於這些提取的信息,我們生成相應的代碼,以準確捕捉數學推理過程。將生成的代碼附加到每個推理步驟中,形成由配對的自然語言推理步驟和相應代碼組成的數據。將此數據與原始數據集結合,形成一個包含192億令牌的高性能數學預訓練語料庫,我們將其命名為MathCode-Pile。使用這個語料庫訓練幾個流行的基礎模型顯著提升了它們的數學能力,從而創建了MathCoder2系列模型。我們所有的數據處理和訓練代碼均為開源,確保整個數據收集和訓練流程的完全透明性和易於重現性。代碼已在https://github.com/mathllm/MathCoder2 上釋出。

3

MLLM作為檢索器:為具體代理人互動學習多模態檢索
MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents

Oct 4
ByJunpeng Yue, Xinru Xu, Börje F. Karlsson, Zongqing Lu
36
2

MLLM代理通過檢索多模式任務相關的軌跡數據展示了對複雜具體任務的潛力。然而,目前的檢索方法主要集中在軌跡中文本或視覺提示的表面相似性上,忽略了它們對特定任務的有效性。為了解決這個問題,我們提出了一種新方法,即MLLM作為檢索器(MART),通過利用交互數據來微調基於偏好學習的MLLM檢索器,以使檢索器充分考慮軌跡的有效性並為未知任務優先考慮它們。我們還引入了軌跡抽象,這是一種利用MLLM的總結能力來用較少的標記表示軌跡並保留關鍵信息的機制,從而使代理更好地理解軌跡中的里程碑。在各種環境中的實驗結果顯示,我們的方法顯著提高了在未知場景中的任務成功率,與基準方法相比。這項工作提出了一種新的多模式檢索範式,通過微調通用MLLM作為檢索器來評估軌跡的有效性。所有基準任務集和模擬器代碼修改將被釋放。

4

PrefixQuant:通過在LLMs中使用前綴異常值,靜態量化勝過動態量化
PrefixQuant: Static Quantization Beats Dynamic through Prefixed Outliers in LLMs

Oct 7
ByMengzhao Chen, Yi Liu, Jiahao Wang, Yi Bin, Wenqi Shao, Ping Luo
32
2

量化對於部署大型語言模型(LLMs)至關重要,可增強記憶效率和推理速度。現有的激活量化方法主要處理通道異常值,通常忽略基於標記的異常值,導致依賴昂貴的每標記動態量化。為了解決這個問題,我們引入了PrefixQuant,這是一種新穎的技術,可以在無需重新訓練的情況下離線隔離異常值標記。具體來說,PrefixQuant識別高頻異常值標記並將它們前綴在KV快取中,從而在推理期間防止異常值標記的生成並簡化量化過程。據我們所知,PrefixQuant是首個實現高效的每張量靜態量化以勝過昂貴的每標記動態量化的方法。例如,在W4A4KV4(4位權重,4位激活和4位KV快取)Llama-3-8B中,PrefixQuant搭配每張量靜態量化實現了7.43的WikiText2困惑度和71.08%的5個常識推理任務的平均準確率,勝過先前的每標記動態量化方法,如QuaRot,困惑度提高了0.98,準確率增加了5.98個百分點。此外,使用PrefixQuant的W4A4量化模型的推理速度比FP16模型快1.60倍至2.81倍,超過QuaRot模型1.2倍至1.3倍。我們的程式碼可在https://github.com/ChenMnZ/PrefixQuant找到。

5

評估主動式工作流生成
Benchmarking Agentic Workflow Generation

Oct 10
ByShuofei Qiao, Runnan Fang, Zhisong Qiu, Xiaobin Wang, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen
28
2

大型語言模型(LLMs)以其出色的處理多種任務的能力,推動了在處理推理和規劃任務方面的重大進展,其中將複雜問題分解為可執行工作流程是這一過程中的關鍵步驟。現有的工作流程評估框架要麼僅關注整體性能,要麼存在著諸如受限情景涵蓋範圍、簡化的工作流程結構和寬鬆的評估標準等限制。為此,我們介紹了WorFBench,一個統一的工作流程生成基準,具有多方面的情景和複雜的圖形工作流程結構。此外,我們提出了WorFEval,一種系統性評估協議,利用子序列和子圖匹配算法來準確量化LLM代理的工作流程生成能力。通過對不同類型的LLMs進行全面評估,我們發現LLM代理的序列規劃能力和圖形規劃能力之間存在明顯差距,即使是GPT-4也存在約15%的差距。我們還訓練了兩個開源模型,並評估它們在留存任務上的泛化能力。此外,我們觀察到生成的工作流程可以增強下游任務,使其在推理過程中以更少的時間達到更優異的性能。代碼和數據集將在https://github.com/zjunlp/WorFBench 上提供。

6

Agent S:一個開放的代理框架,讓電腦像人類一樣運作。
Agent S: An Open Agentic Framework that Uses Computers Like a Human

Oct 10
BySaaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang
26
2

我們提出了Agent S,一個開放的代理框架,通過圖形用戶界面(GUI)實現與計算機的自主交互,旨在通過自動執行複雜的多步任務來改變人機交互。Agent S的目標是應對自動執行計算機任務中的三個關鍵挑戰:獲取特定領域知識、規劃長期任務視野以及處理動態、非統一界面。為此,Agent S引入了經驗增強的階層規劃,通過在多個層次上從外部知識搜索和內部經驗檢索中學習,促進有效的任務規劃和子任務執行。此外,它利用一個代理-計算機界面(ACI)來更好地引出基於多模式大型語言模型(MLLMs)的GUI代理的推理和控制能力。在OSWorld基準測試中的評估顯示,Agent S在成功率上優於基準線9.37%(相對改進了83.6%),並實現了新的最先進技術。全面分析突出了各個組件的有效性,並為未來改進提供了見解。此外,Agent S在新發布的WindowsAgentArena基準測試中展示了對不同操作系統的廣泛泛化能力。代碼可在https://github.com/simular-ai/Agent-S找到。

7

DART:用於可擴展文本到圖像生成的去噪自回歸Transformer
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation

Oct 10
ByJiatao Gu, Yuyang Wang, Yizhe Zhang, Qihang Zhang, Dinghuai Zhang, Navdeep Jaitly, Josh Susskind, Shuangfei Zhai
26
2

擴散模型已成為視覺生成的主要方法。它們通過去噪馬可夫過程進行訓練,逐漸向輸入添加噪聲。我們認為馬可夫性質限制了模型充分利用生成軌跡的能力,導致訓練和推理過程中的低效率。在本文中,我們提出了DART,這是一個基於Transformer的模型,將自回歸(AR)和擴散統一在非馬可夫框架中。DART通過使用與標準語言模型相同架構的AR模型,對圖像補丁進行空間和頻譜去噪。DART不依賴圖像量化,從而實現更有效的圖像建模,同時保持靈活性。此外,DART可以無縫地在統一模型中訓練文本和圖像數據。我們的方法在類別條件和文本到圖像生成任務上展現了競爭力,為傳統擴散模型提供了一種可擴展、高效的替代方案。通過這一統一框架,DART為可擴展、高質量的圖像合成設立了新的基準。

8

DICE:離散反轉,為多項式擴散和遮罩生成模型提供可控編輯功能
DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models

Oct 10
ByXiaoxiao He, Ligong Han, Quan Dao, Song Wen, Minhao Bai, Di Liu, Han Zhang, Martin Renqiang Min, Felix Juefei-Xu, Chaowei Tan, Bo Liu, Kang Li, Hongdong Li, Junzhou Huang, Faez Ahmed, Akash Srivastava, Dimitris Metaxas
19
2

離散擴散模型在影像生成和遮罩語言建模等任務中取得成功,但在受控內容編輯方面存在限制。我們引入了DICE(Discrete Inversion for Controllable Editing),這是第一種能夠實現對離散擴散模型進行精確反演的方法,包括多項式擴散和遮罩生成模型。通過在反向擴散過程中記錄噪音序列和遮罩模式,DICE實現了對離散數據的準確重構和靈活編輯,無需預定義遮罩或注意力操作。我們展示了DICE在影像和文本領域的有效性,對VQ-Diffusion、Paella和RoBERTa等模型進行了評估。我們的結果表明,DICE保留了高數據保真度,同時增強了編輯功能,為離散空間中的精細內容操作提供了新機會。有關項目網頁,請參見https://hexiaoxiao-cs.github.io/DICE/。

9

修正擴散:在修正流中,直線並非所需
Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow

Oct 9
ByFu-Yun Wang, Ling Yang, Zhaoyang Huang, Mengdi Wang, Hongsheng Li
18
3

擴散模型在視覺生成方面取得了巨大進步,但由於解決生成式 ODE 的計算密集性,導致生成速度緩慢。矯正流是一個廣泛認可的解決方案,通過使 ODE 路徑變直來提高生成速度。其關鍵組成部分包括:1)使用擴散形式的流匹配,2)採用粗體 v-預測,以及3)執行矯正(又稱重新流動)。本文主張,矯正的成功主要在於使用預訓練的擴散模型來獲取噪聲和樣本的匹配對,然後通過這些匹配的噪聲-樣本對進行重新訓練。基於此,組成部分1)和2)是不必要的。此外,我們強調,直線性不是矯正的基本訓練目標;相反,它是流匹配模型的一個特定案例。更關鍵的訓練目標是實現一個一階近似的 ODE 路徑,對於像 DDPM 和 Sub-VP 這樣的模型,這種路徑在本質上是彎曲的。基於這一見解,我們提出了矯正擴散,將矯正的設計空間和應用範圍擴展到更廣泛的擴散模型類別,而不僅僅限於流匹配模型。我們在 Stable Diffusion v1-5 和 Stable Diffusion XL 上驗證了我們的方法。我們的方法不僅極大簡化了基於矯正流的先前作品(例如 InstaFlow)的訓練過程,而且在訓練成本更低的情況下實現了更優異的性能。我們的代碼可在 https://github.com/G-U-N/Rectified-Diffusion 找到。

10

大型語言和視覺模型的引人入勝特性
Intriguing Properties of Large Language and Vision Models

Oct 7
ByYoung-Jun Lee, Byungsoo Ko, Han-Gyu Kim, Yechan Hwang, Ho-Jin Choi
16
4

最近,由於其在需要感知和認知能力的各種任務中展現出卓越的泛化性能,大型語言和視覺模型(LLVMs)受到了顯著的關注和開發努力。它們成功的關鍵因素之一是其簡單的架構,包括視覺編碼器、投影器和大型語言模型(LLM)。儘管在高級推理任務中取得了成就,但它們在基本的與感知相關的任務(例如MMVP)上的表現仍然令人驚訝地低。這種差異引發了一個問題,即LLVMs如何真正感知圖像並利用視覺編碼器的優勢。為了解決這個問題,我們系統地探討了幾個方面:置換不變性、韌性、數學推理、保持對齊和重要性,通過評估最常見的LLVM家族(即LLaVA)在10個評估基準上的表現。我們的廣泛實驗揭示了當前LLVMs的幾個引人入勝的特性:(1)即使視覺補丁序列的順序被隨機置換,它們也在內部以全局方式處理圖像;(2)它們有時能夠在沒有完全感知詳細數字信息的情況下解決數學問題;(3)跨模態對齊過度擬合於複雜的推理任務,從而使它們失去視覺編碼器的一些原始感知能力;(4)在較低層的表示空間(<25%)在確定性能和增強視覺理解方面發揮著至關重要的作用。最後,基於上述觀察,我們提出了建立更好的LLVMs和構建更具挑戰性的評估基準的潛在未來方向。

11

漸進自回歸影像擴散模型
Progressive Autoregressive Video Diffusion Models

Oct 10
ByDesai Xie, Zhan Xu, Yicong Hong, Hao Tan, Difan Liu, Feng Liu, Arie Kaufman, Yang Zhou
16
4

目前前沿的影片擴散模型展現出在生成高品質影片方面的卓越成果。然而,由於訓練過程中的計算限制,這些模型僅能生成短影片片段,通常約為10秒或240幀。在這項研究中,我們展示現有模型可以自然擴展為自回歸影片擴散模型,而無需改變架構。我們的關鍵想法是將潛在幀逐漸增加噪音水平,而非單一噪音水平,這有助於在潛在幀之間實現細粒度條件和注意力窗口之間的大重疊。這種漸進式影片降噪使我們的模型能夠自回歸生成影片幀,而不會出現品質下降或突然場景變化。我們在長影片生成方面呈現了最先進的結果,達到1分鐘(24 FPS下的1440幀)。本文影片可在以下網址獲得:https://desaixie.github.io/pa-vdm/。

12

GLOV:引導式大型語言模型作為視覺的隱式優化器。
GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models

Oct 8
ByM. Jehanzeb Mirza, Mengjie Zhao, Zhuoyuan Mao, Sivan Doveh, Wei Lin, Paul Gavrikov, Michael Dorkenwald, Shiqi Yang, Saurav Jha, Hiromi Wakaki, Yuki Mitsufuji, Horst Possegger, Rogerio Feris, Leonid Karlinsky, James Glass
16
2

在這項工作中,我們提出了一種新方法(GLOV),使得大型語言模型(LLMs)能夠作為視覺語言模型(VLMs)的隱式優化器,以增強下游視覺任務。我們的GLOV使用下游任務描述對LLM進行元提示,請求其提供適合的VLM提示(例如,用於CLIP的零-shot分類)。這些提示根據通過適應函數獲得的純度度量進行排名。在每個相應的優化步驟中,排名的提示被作為上下文示例(及其準確性)提供給LLM,以使其瞭解下游VLM偏好的文本提示類型的知識。此外,我們還通過將LLM在每個優化步驟中找到的正負解的嵌入之間的偏移差向量明確添加到網絡的中間層,以引導LLM生成過程。這個偏移向量將LLM生成引導到下游VLM偏好的語言類型,從而提高下游視覺任務的性能。我們在16個不同數據集上全面評估了我們的GLOV,使用雙編碼器(例如,CLIP)和編碼器-解碼器(例如,LLaVa)模型這兩個VLM家族,結果顯示發現的解決方案可以使這些模型的識別性能提高高達15.0%和57.5%(平均分別為3.8%和21.6%)。

13

無所不在:LLM 可以在上下文中以叠加方式學習多個任務
Everything Everywhere All at Once: LLMs can In-Context Learn Multiple Tasks in Superposition

Oct 8
ByZheyang Xiong, Ziyang Cai, John Cooper, Albert Ge, Vasilis Papageorgiou, Zack Sifakis, Angeliki Giannou, Ziqian Lin, Liu Yang, Saurabh Agarwal, Grigorios G Chrysos, Samet Oymak, Kangwook Lee, Dimitris Papailiopoulos
11
2

大型語言模型(LLMs)展示了卓越的上下文學習(ICL)能力。在本研究中,我們探索了與ICL相關的一個令人驚訝的現象:LLMs能夠在單個推論調用期間同時執行多個計算上不同的ICL任務,這種能力我們稱之為“任務重疊”。我們提供了跨不同LLM家族和規模的實證證據,並展示了即使我們訓練模型一次只學習一個任務,這種現象也會出現。我們提供了理論解釋,認為這種能力完全在transformers的表達能力範圍之內。我們還探討了LLMs在重疊期間如何內部組合任務向量。此外,我們展示了更大的模型可以並行解決更多ICL任務,並更好地校準其輸出分佈。我們的研究結果揭示了LLMs的潛在能力,進一步證實了“LLMs作為模擬器重疊”的觀點,並引發了關於實現同時執行任務的機制的問題。

14

保留預訓練的多模式 VLMs 的能力,以提升視覺-語言組合性
Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality

Oct 7
ByYoungtaek Oh, Jae Won Cho, Dong-Jin Kim, In So Kweon, Junmo Kim
11
3

本文提出了一種新方法,用於增強預先訓練的視覺和語言模型(VLMs)對組合理解的能力,同時不影響零-shot多模式任務的性能。傳統的微調方法通常會改善組合推理,但會以降低多模式能力為代價,主要是由於使用全局硬負(HN)損失,這種損失對比圖像和文本的全局表示。這種全局HN損失會推動高度相似於原始文本的HN文本,損壞模型的多模式表示。為了克服這一限制,我們提出了Fine-grained Selective Calibrated CLIP(FSC-CLIP),它整合了局部硬負損失和選擇性校準正則化。這些創新提供了精細的負面監督,同時保持了模型的表示完整性。我們在各種組合性和多模式任務的廣泛評估中表明,FSC-CLIP不僅實現了與最先進模型相當的組合性,還保留了強大的多模式能力。代碼可在以下鏈接找到:https://github.com/ytaek-oh/fsc-clip。

15

通過 MCTS 朝向 LLMs 的自我改進:利用逐步知識與課程偏好學習
Towards Self-Improvement of LLMs via MCTS: Leveraging Stepwise Knowledge with Curriculum Preference Learning

Oct 9
ByXiyao Wang, Linfeng Song, Ye Tian, Dian Yu, Baolin Peng, Haitao Mi, Furong Huang, Dong Yu
11
2

蒙特卡羅樹搜索(MCTS)最近已成為增強LLM推理能力的強大技術。諸如SFT或DPO等技術使LLM能夠從MCTS中提煉高質量行為,從而提高其推理性能。然而,現有的提煉方法未充分利用MCTS生成的豐富軌跡信息,限制了LLM推理能力提升的潛力。本文提出了AlphaLLM-CPL,一種新型的成對訓練框架,通過MCTS行為提煉使LLM能夠自我改進。AlphaLLM-CPL通過兩個關鍵創新有效地利用MCTS軌跡:(1)AlphaLLM-CPL從搜索樹中共享相同父節點的子節點構建逐步軌跡對,為更有效的MCTS行為提煉提供步級信息。 (2)AlphaLLM-CPL引入課程偏好學習,動態調整每個離線訓練時期中軌跡對的訓練順序,以優先考慮關鍵學習步驟並減輕過度擬合。在數學推理任務上的實驗結果表明,AlphaLLM-CPL明顯優於先前的MCTS行為提煉方法,大幅提升了LLM的推理能力。

16

SFTMix:利用Mixup配方提升語言模型調校
SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe

Oct 7
ByYuxin Xiao, Shujian Zhang, Wenxuan Zhou, Marzyeh Ghassemi, Sanqiang Zhao
9
2

為了在大型語言模型(LLMs)中誘導所需的行為,以應對互動驅動任務,指令調整階段通常使用下一個標記預測(NTP)損失來訓練LLMs,並使用指令-回應對。先前的研究旨在改善指令調整性能,通常強調需要更高質量的監督微調(SFT)數據集,這通常涉及使用專有LLMs進行昂貴的數據篩選,或者通過人工標註者進行勞動密集型數據生成。然而,這些方法未能充分利用數據集的內在特性,導致高計算和勞動成本,從而限制了可擴展性和性能增益。在本文中,我們提出了SFTMix,一種新穎的配方,可以提升指令調整性能,超越傳統的NTP範式,而無需經過精心策劃的數據集。觀察到LLMs在語義表示空間中表現出不均勻的信心,我們認為具有不同信心水平的示例應在指令調整過程中發揮不同作用。基於這一洞察,SFTMix利用訓練動態來識別具有不同信心水平的示例,然後應用基於Mixup的正則化來減輕對自信示例的過度擬合,同時傳播監督信號以改善對相對不自信的示例的學習。這種方法使SFTMix在廣泛的指令遵循和醫療保健領域特定的SFT任務中明顯優於NTP,展示了其適應不同LLM系列並可擴展到任何大小數據集的能力。全面的消融研究進一步驗證了SFTMix設計選擇的穩健性,強調了其在不同LLMs和數據集中持續增強性能的多功能性,適用於更廣泛的自然語言處理應用。

17

優化:針對基於LLM的多智能體系統的效能和效率進行優化
Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System

Oct 10
ByWeize Chen, Jiarui Yuan, Chen Qian, Cheng Yang, Zhiyuan Liu, Maosong Sun
8
2

基於大型語言模型(LLM)的多智能體系統(MAS)在協作解決問題方面展現出卓越潛力,但仍面臨著關鍵挑戰:低通訊效率、可擴展性不佳以及缺乏有效的參數更新優化方法。我們提出了Optima,一個新穎的框架,通過顯著增強LLM訓練中的通訊效率和任務效能,來應對這些問題。Optima採用了一種迭代生成、排名、選擇和訓練範式,並通過平衡任務表現、標記效率和通訊可讀性的獎勵函數,顯著提高了LLM-based MAS中的通訊效率和任務效能。我們探索了各種強化學習算法,包括監督微調、直接偏好優化以及它們的混合方法,提供了對其效能和效率取捨的見解。我們整合了受蒙特卡羅樹搜索啟發的技術用於DPO數據生成,將對話轉換視為樹節點以探索多樣的互動路徑。在常見的多智能體任務上進行評估,包括信息不對稱問答和複雜推理,Optima相對於基於Llama 3 8B的單智能體基線和基本MAS表現出一致且顯著的改進,在需要大量信息交換的任務上實現了高達2.8倍的性能增益,並且在不到10%的標記情況下。此外,Optima的效率提升開啟了更有效地利用推論計算的新可能性,從而帶來了改進的推論時間擴展定律。通過解決LLM-based MAS中的基本挑戰,Optima展示了實現可擴展、高效和有效MAS的潛力(https://chenweize1998.github.io/optima-project-page)。

18

通過重複的例子產生的新興特性
Emergent properties with repeated examples

Oct 9
ByFrançois Charton, Julia Kempe
8
3

我們研究了使用演算法生成的資料集中的訓練範例重複次數作為變數時,Transformer 模型的表現。在三個數學問題上:最大公因數、模數乘法和矩陣特徵值,我們發現對於固定的訓練步驟數,以較小重複範例集訓練的模型表現優於以較大單次使用範例集訓練的模型。我們也證明了雙集訓練 - 對一小部分隨機範例重複使用,同時對訓練集中其餘範例進行正常取樣 - 能夠提供更快的學習速度和更好的表現。這凸顯了重複的好處可能超過數據多樣性的好處。這些資料集和問題提供了一個受控環境,以闡明深度學習中泛化和記憶之間仍不甚了解的相互作用。

19

作弊自動LLM基準測試:空模型取得高勝率
Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates

Oct 9
ByXiaosen Zheng, Tianyu Pang, Chao Du, Qian Liu, Jing Jiang, Min Lin
8
2

自動 LLM 基準,如 AlpacaEval 2.0、Arena-Hard-Auto 和 MT-Bench,因其與人類評估相比的成本效益和可擴展性而變得流行,用於評估語言模型。在這些基準上取得高勝率可以顯著提升新發布的語言模型的推廣影響。這種推廣效益可能會激勵一些技巧,例如操縱模型輸出長度或風格以提高勝率,即使已開發了幾種機制來控制長度並解開風格以減少可遊戲性。然而,我們發現,即使是一個總是輸出恆定回應(與輸入指令無關)的“空模型”也可以欺騙自動基準並取得排名靠前的勝率:在 AlpacaEval 2.0 上達到 86.5% 的 LC 勝率;在 Arena-Hard-Auto 上達到 83.0 分;在 MT-Bench 上達到 9.55 分。此外,精心製作的欺騙輸出是可轉移的,因為我們假設這些基準的指令(例如 AlpacaEval 2.0 的 805 個樣本)是私有的且無法訪問。雖然我們的實驗主要是概念證明,但對手可以利用 LLM 生成更不可察覺的欺騙回應,不道德地從高勝率和推廣影響中受益。我們的發現呼籲為可靠的自動基準開發反作弊機制。代碼可在 https://github.com/sail-sg/Cheating-LLM-Benchmarks 找到。

20

擴展您的核心:在 ConvNets 中的大核心設計朝向通用表示形式
Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations

Oct 10
ByYiyuan Zhang, Xiaohan Ding, Xiangyu Yue
8
2

本文提出了在設計現代卷積神經網絡(ConvNets)中使用大型卷積核的範式。我們確定,採用少量大型卷積核,而非堆疊多個較小的卷積核,可以是一種優越的設計策略。我們的工作引入了一套針對大型卷積核ConvNets的架構設計指南,優化其效率和性能。我們提出了UniRepLKNet架構,提供了專門為大型卷積核ConvNets量身定制的系統架構設計原則,強調它們捕獲廣泛空間信息的獨特能力,而無需深度堆疊層。這導致一個模型,不僅在ImageNet準確度達到88.0%,ADE20K mIoU達到55.6%,COCO box AP達到56.4%,超越了其前身,還在各種模態(如時間序列預測、音頻、點雲和視頻識別)上展示了令人印象深刻的可擴展性和性能。這些結果表明,與視覺變換器相比,大型卷積核ConvNets具有更快的推理速度,顯示了其通用建模能力。我們的研究發現顯示,大型卷積核ConvNets具有更大的有效感受野和更高的形狀偏差,遠離較小卷積核CNN典型的紋理偏差。所有代碼和模型都可在https://github.com/AILab-CVC/UniRepLKNet 公開獲得,促進社區中進一步的研究和發展。

21

大型語言模型對齊的加速偏好優化
Accelerated Preference Optimization for Large Language Model Alignment

Oct 8
ByJiafan He, Huizhuo Yuan, Quanquan Gu
5
2

從人類反饋中學習的強化學習(RLHF)已成為將大型語言模型(LLMs)與人類偏好對齊的關鍵工具。直接偏好優化(DPO)是最流行的方法之一,將RLHF形式化為一個政策優化問題,而無需明確估計獎勵函數。它克服了兩步方法的穩定性和效率問題,這些方法通常涉及首先估計獎勵函數,然後通過近端政策優化(PPO)來優化政策。由於RLHF本質上是一個優化問題,而且眾所周知,動量技術在理論上和實際上都可以加速優化,一個自然的問題就出現了:RLHF能否通過動量加速?本文肯定地回答了這個問題。具體而言,我們首先展示了迭代偏好優化方法可以被視為一種近端點方法。基於這一觀察,我們提出了一個通用的加速偏好優化(APO)框架,該框架統一了許多現有的偏好優化算法,並採用Nesterov的動量技術來加速LLMs的對齊。從理論上來看,我們證明了APO可以實現比標準的迭代偏好優化方法更快的收斂速度,包括DPO和自我對弈偏好優化(SPPO)。在實踐中,我們展示了APO在AlpacaEval 2.0基準測試中優於DPO、迭代DPO和其他強基準的RLHF。

22

向量-ICL:具有連續向量表示的內文學習
Vector-ICL: In-context Learning with Continuous Vector Representations

Oct 8
ByYufan Zhuang, Chandan Singh, Liyuan Liu, Jingbo Shang, Jianfeng Gao
3
3

大型語言模型(LLMs)展示了在文本數據上顯著的上下文學習(ICL)能力。我們探索這些能力是否可以擴展到來自黑盒預訓練編碼器的不同領域的連續向量。通過通過輕量級投影器將輸入數據與LLM的嵌入空間對齊,我們觀察到LLMs可以有效地處理和學習這些投影向量,我們稱之為向量-ICL。特別是,我們發現使用通用語言建模目標預訓練投影器可以實現向量-ICL,而任務特定的微調進一步提高了性能。在我們的實驗中涵蓋各種任務和模態,包括文本重構、數值函數回歸、文本分類、摘要、分子標題、時間序列分類、圖分類和fMRI解碼,向量-ICL通常優於少樣本ICL和特定領域模型或調整。我們進一步進行分析和案例研究,顯示LLMs處理向量表示的潛力超越了傳統基於標記的範式。

23

資料顧問:針對大型語言模型的安全對齊進行動態資料編輯
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models

Oct 7
ByFei Wang, Ninareh Mehrabi, Palash Goyal, Rahul Gupta, Kai-Wei Chang, Aram Galstyan
3
2

在大型語言模型(LLM)對齊中,數據是一個至關重要的元素。最近的研究已探索使用LLM進行高效數據收集。然而,LLM生成的數據往往存在質量問題,包括欠代表或缺失的方面以及低質量的數據點。為解決這些問題,我們提出了Data Advisor,這是一種增強型基於LLM的數據生成方法,考慮了所需數據集的特徵。從一組預定義的原則出發,Data Advisor監控生成數據的狀態,識別當前數據集中的弱點,並相應地建議下一輪數據生成。Data Advisor可以輕鬆集成到現有的數據生成方法中,以增強數據質量和覆蓋範圍。對三個代表性LLM(即Mistral、Llama2和Falcon)的安全對齊進行的實驗證明了Data Advisor在增強模型安全性方面的有效性,可以抵禦各種細粒度安全問題,同時不損害模型效用。

24

MotionGS:探索對可變形3D高斯塗抹進行明確運動引導
MotionGS: Exploring Explicit Motion Guidance for Deformable 3D Gaussian Splatting

Oct 10
ByRuijie Zhu, Yanzhe Liang, Hanzhi Chang, Jiacheng Deng, Jiahao Lu, Wenfei Yang, Tianzhu Zhang, Yongdong Zhang
3
2

在3D視覺領域,動態場景重建一直是一個長期的挑戰。最近,3D高斯飄點技術的出現為這個問題提供了新的見解。儘管後續努力迅速將靜態3D高斯擴展到動態場景,但它們通常缺乏對物體運動的明確約束,導致優化困難和性能下降。為了解決上述問題,我們提出了一種新穎的可變形3D高斯飄點框架,稱為MotionGS,它探索明確的運動先驗來引導3D高斯的變形。具體而言,我們首先引入了一個光流解耦模塊,將光流解耦為相機光流和運動光流,分別對應相機運動和物體運動。然後,運動光流可以有效地約束3D高斯的變形,從而模擬動態物體的運動。此外,我們提出了一個相機姿態精化模塊,交替優化3D高斯和相機姿態,減輕不準確相機姿態的影響。在單眼動態場景中進行的大量實驗驗證了MotionGS超越了最先進的方法,在定性和定量結果上表現出顯著的優越性。項目頁面:https://ruijiezhu94.github.io/MotionGS_page

25

LPZero:從零開始的零成本語言模型代理搜索
LPZero: Language Model Zero-cost Proxy Search from Zero

Oct 7
ByPeijie Dong, Lujun Li, Xiang Liu, Zhenheng Tang, Xuebo Liu, Qiang Wang, Xiaowen Chu
2
2

儘管神經架構搜索(NAS)表現優異,但卻因計算量巨大而受到批評。最近,零成本神經架構搜索(Zero-shot NAS)作為一種利用零成本(ZC)代理的新方法嶄露頭角,大幅降低了計算需求。儘管如此,現有的ZC代理卻高度依賴專家知識,並帶來顯著的試誤成本。特別是在自然語言處理(NLP)任務中,大多數現有的ZC代理都無法超越天真基準的表現。為應對這些挑戰,我們提出了一個新穎的框架 LPZero,首次自動設計各種任務的ZC代理,實現比人工設計的代理更高的排名一致性。具體而言,我們將ZC代理建模為符號方程式,並融入一個統一的代理搜索空間,包含現有ZC代理,這些代理由一組預定義的數學符號組成。為了啟發式地尋找最佳的ZC代理,LPZero採用基因編程來找到最佳的符號組合。我們提出了一種基於規則的修剪策略(RPS),預先消除不太有希望的代理,從而減輕代理退化的風險。對FlexiBERT、GPT-2和LLaMA-7B的大量實驗顯示,與當前方法相比,LPZero在下游任務中表現出優越的排名能力和性能。

26

Zebra:用於解決參數化偏微分方程的上下文和生成預訓練
Zebra: In-Context and Generative Pretraining for Solving Parametric PDEs

Oct 4
ByLouis Serrano, Armand Kassaï Koupaï, Thomas X Wang, Pierre Erbacher, Patrick Gallinari
2
2

解決時間相依性參數偏微分方程(PDEs)是具有挑戰性的,因為模型必須適應參數的變化,如係數、強制項和邊界條件。基於數據的神經求解器通常通過訓練來自PDE參數分佈的數據,希望模型能推廣到新實例,或依賴基於梯度的適應和元學習來從觀察中隱式編碼動態性。然而,這通常會帶來增加的推論複雜性。受大型語言模型(LLMs)在上下文學習能力的啟發,我們引入了Zebra,一種新穎的生成自回歸變壓器,旨在解決參數化PDEs,而無需在推論時進行梯度適應。通過在預訓練和推論期間利用上下文信息,Zebra通過條件化於包含上下文軌跡或前狀態的輸入序列,動態適應新任務。這種方法使Zebra能靈活處理任意大小的上下文輸入,並通過多個解軌跡的抽樣支持不確定性量化。我們在各種具有挑戰性的PDE情境中評估了Zebra,展示了其適應性、穩健性和優越性能,相較於現有方法。

Oct 10
Oct 11
Oct 14