AI研究論文每日精選

每日精選AI研究論文及翻譯

SmolLM2：當小型模型變得強大——小型語言模型的資料中心訓練
SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model

Feb 4

ByLoubna Ben Allal, Anton Lozhkov, Elie Bakouch, Gabriel Martín Blázquez, Guilherme Penedo, Lewis Tunstall, Andrés Marafioti, Hynek Kydlíček, Agustín Piqueres Lajarín, Vaibhav Srivastav, Joshua Lochner, Caleb Fahlgren, Xuan-Son Nguyen, Clémentine Fourrier, Ben Burtenshaw, Hugo Larcher, Haojun Zhao, Cyril Zakka, Mathieu Morlon, Colin Raffel, Leandro von Werra, Thomas Wolf

243

儘管大型語言模型促進了人工智慧許多應用的突破，但其固有的龐大尺寸使其在資源受限的環境中難以部署並且需要大量計算資源。本文記錄了SmolLM2的開發，這是一個最先進的「小型」（17億參數）語言模型（LM）。為了達到優異的性能，我們對SmolLM2進行了超級訓練，使用了約11兆標記數據，採用了混合網絡文本與專業數學、代碼和指令跟隨數據的多階段訓練過程。我們還在現有數據集過小或質量不佳的階段引入了新的專業數據集（FineMath、Stack-Edu和SmolTalk）。為了指導我們的設計決策，我們進行了小規模消融實驗，並進行了手動精煉過程，根據前一階段的性能更新每個階段的數據集混合比率。最終，我們展示了SmolLM2優於其他最近的小型LM，包括Qwen2.5-1.5B和Llama3.2-1B。為了促進LM開發以及小型LM應用的未來研究，我們釋出了SmolLM2以及在項目進行過程中準備的所有數據集。

LIMO：推理的精簡原則
LIMO: Less is More for Reasoning

Feb 5

ByYixin Ye, Zhen Huang, Yang Xiao, Ethan Chern, Shijie Xia, Pengfei Liu

我們提出了一項基本發現，挑戰了我們對於大型語言模型中複雜推理產生的理解。傳統觀點認為，複雜的推理任務需要大量的訓練數據（>100,000個示例），但我們證明複雜的數學推理能力可以用極少的示例有效引發。通過全面的實驗，我們提出的模型LIMO展示了在數學推理方面前所未有的性能。僅使用了817個精心挑選的訓練樣本，LIMO在AIME上達到了57.1%的準確率，在MATH上達到了94.8%，分別優於先前基於SFT的模型的6.5%和59.2%，同時僅使用了先前方法所需訓練數據的1%。LIMO展示了出色的超出分佈泛化能力，在10個不同基準測試中實現了40.5%的絕對改進，優於使用100倍數據訓練的模型，挑戰了SFT導致記憶而非泛化的觀念。基於這些結果，我們提出了“少即是多推理假設”（LIMO Hypothesis）：在基礎模型中，領域知識已在預訓練過程中得到全面編碼，複雜的推理能力可以通過最少但精確協調的認知過程示範而出現。該假設認為，複雜推理的引發閾值由兩個關鍵因素確定：（1）模型在預訓練過程中編碼知識基礎的完整性，以及（2）後訓練示例作為“認知模板”的效力，展示模型如何利用其知識庫解決複雜推理任務。為了促進高效推理的可重現性和未來研究，我們將LIMO作為一個全面的開源套件發布在https://github.com/GAIR-NLP/LIMO。

揭開LLM中的長篇推理之謎
Demystifying Long Chain-of-Thought Reasoning in LLMs

Feb 5

ByEdward Yeo, Yuxuan Tong, Morry Niu, Graham Neubig, Xiang Yue

擴展推論計算能夠增強大型語言模型（LLMs）中的推理能力，長度較長的思維鏈（CoTs）使得回溯和錯誤更正等策略成為可能。強化學習（RL）已經成為發展這些能力的關鍵方法，然而，導致長 CoTs 出現的條件仍然不清楚，並且 RL 訓練需要仔細的設計選擇。在這項研究中，我們系統地研究了長 CoT 推理的機制，確定了使模型能夠生成長 CoT 軌跡的關鍵因素。通過大量的監督微調（SFT）和 RL 實驗，我們提出了四個主要發現：（1）雖然 SFT 不是絕對必要的，但它簡化了訓練並提高了效率；（2）推理能力往往隨著訓練計算量的增加而出現，但它們的發展並不是一定的，因此，對於穩定 CoT 長度增長，獎勵塑造至關重要；（3）擴展可驗證的獎勵信號對於 RL 至關重要。我們發現，利用帶有過濾機制的噪聲、從網絡提取的解決方案具有很強的潛力，特別是對於 STEM 推理等超出分佈（OOD）任務；以及（4）像錯誤更正這樣的核心能力在基本模型中本質上是存在的，但是通過 RL 有效地激勵這些技能以應對複雜任務需要大量計算，並且衡量它們的出現需要一種細緻的方法。這些見解為優化訓練策略以增強 LLM 中的長 CoT 推理提供了實用指導。我們的代碼可在以下鏈接找到：https://github.com/eddycmu/demystify-long-cot。

TwinMarket：用於金融市場的可擴展行為和社會模擬
TwinMarket: A Scalable Behavioral and Social Simulation for Financial Markets

Feb 3

ByYuzhe Yang, Yifei Zhang, Minghao Wu, Kaidi Zhang, Yunmiao Zhang, Honghai Yu, Yan Hu, Benyou Wang

社會出現的研究長期以來一直是社會科學的核心關注焦點。傳統建模方法，如基於規則的基於代理的模型（ABMs），難以捕捉人類行為的多樣性和複雜性，尤其是行為經濟學強調的非理性因素。最近，大型語言模型（LLM）代理已經成為社會科學和角色扮演應用中建模人類行為的仿真工具。研究表明，LLMs可以解釋認知偏見、情緒波動和其他非理性影響，從而實現更現實的社會經濟動態模擬。在這項工作中，我們介紹了TwinMarket，一個利用LLMs來模擬社會經濟系統的新型多代理框架。具體而言，我們研究個體行為如何通過互動和反饋機制產生集體動態和新興現象。通過在模擬股市環境中進行實驗，我們展示了個人行為如何觸發群體行為，導致新興結果，如金融泡沫和經濟衰退。我們的方法提供了對個人決策與集體社會經濟模式之間復雜相互作用的寶貴見解。

利用MCTS-自動化結構思維提升多模態推理
Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking

Feb 4

ByJinyang Wu, Mingkuan Feng, Shuai Zhang, Ruihan Jin, Feihu Che, Zengqi Wen, Jianhua Tao

多模式大型語言模型（MLLMs）展現出令人印象深刻的能力，但在複雜的視覺推理方面仍面臨挑戰。儘管最近的努力試圖通過納入類似OpenAI o1的結構化思維來增強MLLMs的推理能力，例如明確的搜索結構或教師引導的蒸餾，但它們往往難以平衡性能和效率。一個關鍵限制是它們過度依賴廣泛的數據和搜索空間，導致低效的隱式洞察提取和數據利用。為了解決這個問題，我們提出AStar，一種通過蒙特卡羅樹搜索（MCTS）實現多模式推理的自動化結構化思維範式。AStar利用MCTS驅動的分層結構從有限數據中自動推導高層次的認知推理模式。基於這些明確的模式，我們設計了一個統一的推理框架，無縫集成模型的內部推理能力和外部推理指導，實現了在最小樹迭代次數下的高效推理。這種新範式在性能和效率之間取得了引人注目的平衡。大量實驗證明了AStar的有效性，在MathVerse基準測試中以7B骨幹實現了卓越的準確性（54.0％），超越了GPT-4o（50.2％），同時保持了可觀的數據和計算效率。

LayerTracer：透過擴散Transformer實現認知對齊的分層SVG合成
LayerTracer: Cognitive-Aligned Layered SVG Synthesis via Diffusion Transformer

Feb 3

ByYiren Song, Danze Chen, Mike Zheng Shou

生成與認知相符的分層SVG仍然具有挑戰性，因為現有方法傾向於產生過於簡化的單層輸出或因優化而導致形狀冗餘。我們提出LayerTracer，一個基於擴散Transformer的框架，通過從一個新穎的連續設計操作數據集中學習設計師的分層SVG創建過程來彌合這一差距。我們的方法分為兩個階段：首先，一個文本條件的DiT生成多階段光柵化建構藍圖，模擬人類設計工作流程。其次，逐層矢量化與路徑去重產生乾淨、可編輯的SVG。對於圖像矢量化，我們引入了一種有條件的擴散機制，將參考圖像編碼為潛在令牌，引導分層重構同時保持結構完整性。廣泛的實驗證明LayerTracer在生成質量和可編輯性方面優於基於優化和神經的基線，有效地使AI生成的矢量與專業設計認知相一致。

關於語言模型蒸餾中的教師模型攻擊
On Teacher Hacking in Language Model Distillation

Feb 4

ByDaniil Tiapkin, Daniele Calandriello, Johan Ferret, Sarah Perrin, Nino Vieillard, Alexandre Ramé, Mathieu Blondel

語言模型（LM）的後訓練越來越依賴以下兩個階段：（i）知識蒸餾，其中LM被訓練以模仿一個更大的教師LM，以及（ii）從人類反饋中進行強化學習（RLHF），其中LM通過優化獎勵模型來對齊。在第二個RLHF階段中，一個眾所周知的挑戰是獎勵劫持，即LM過度優化獎勵模型。這種現象符合古德哈特定律，可能導致在真實目標上性能下降。在本文中，我們探討了一個類似的現象，我們稱之為教師劫持，是否可能在知識蒸餾期間發生。這可能是因為教師LM本身是對真實分佈的不完美近似。為了研究這一點，我們提出了一個受控的實驗設置，包括：（i）代表地面真實分佈的神諭LM，（ii）從神諭蒸餾出的教師LM，以及（iii）從教師蒸餾出的學生LM。我們的實驗揭示了以下見解。當使用固定的離線數據集進行蒸餾時，教師劫持會發生；此外，我們可以通過觀察優化過程偏離多項式收斂定律時來檢測它。相反，採用在線數據生成技術有效地減輕了教師劫持。更確切地說，我們確定數據多樣性是防止劫持的關鍵因素。總的來說，我們的研究結果深入理解了蒸餾在構建強大和高效LM方面的益處和限制。

標記混合：混合潛在標記和文本標記以提升語言模型推理
Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning

Feb 5

ByDiJia Su, Hanlin Zhu, Yingchen Xu, Jiantao Jiao, Yuandong Tian, Qinqing Zheng

大型語言模型（LLMs）在接受以思維鏈（CoT）數據訓練時擅長推理和規劃，其中逐步思考過程由文本標記明確概述。然而，這導致輸入過長，其中許多詞彙支持文本連貫性而非核心推理信息，處理這些輸入需要大量計算資源。在這項工作中，我們提出了一種推理過程的混合表示，部分抽象化初始推理步驟，使用由VQ-VAE生成的潛在離散標記，顯著減少推理跡的長度。我們探索了在兩種情況下使用潛在跡抽象的方法：1）從頭開始為Keys-Finding Maze問題訓練模型，2）在這種混合數據上對LLMs進行微調，其中包括未見過的潛在標記，用於邏輯和數學推理問題。為了促進有效學習，我們引入了一個簡單的訓練程序，隨機混合潛在和文本標記，這使得對新潛在標記的快速適應成為可能。我們的方法在各種基準測試中始終優於基準方法。

大型語言模型引導的自我除錯程式碼生成
Large Language Model Guided Self-Debugging Code Generation

Feb 5

ByMuntasir Adnan, Zhiwei Xu, Carlos C. N. Kuhn

自動程式碼生成在智能計算機編程和系統部署中變得越來越重要。然而，目前的方法往往在計算效率上面臨挑戰，並且缺乏代碼解析和錯誤修正的強大機制。在這項工作中，我們提出了一個新穎的框架，名為 PyCapsule，採用了一個簡單而有效的雙代理管道和高效的自我調試模塊，用於 Python 代碼生成。PyCapsule 具有複雜的提示推斷、迭代式錯誤處理和案例測試，確保生成的穩定性、安全性和正確性。從實證角度來看，PyCapsule 在 HumanEval 上的成功率提高了最多 5.7%，在 HumanEval-ET 上提高了 10.3%，在 BigCodeBench 上提高了 24.4%，相較於當前最先進的方法。我們還觀察到，隨著更多的自我調試嘗試，標準化成功率下降，可能受到保留中有限且嘈雜的錯誤反饋的影響。PyCapsule 在推進輕量級和高效的人工智能系統代碼生成方面展示了更廣泛的影響。

基於機率推論的方法，利用基於粒子的蒙特卡羅方法對LLM進行推論時的縮放
A Probabilistic Inference Approach to Inference-Time Scaling of LLMs using Particle-Based Monte Carlo Methods

Feb 3

ByIsha Puri, Shivchander Sudalairaj, Guangxuan Xu, Kai Xu, Akash Srivastava

大型語言模型（LLMs）通過擴大模型大小和/或數據已經取得顯著的性能提升。然而，最近的證據表明，這種方法存在收益遞減的問題，這促使我們將推斷時的計算量進行擴展。現有的推斷時擴展方法通常使用獎勵模型，將任務視為一個搜索問題，但由於獎勵模型中的近似誤差，這種方法往往容易受到獎勵欺騙的影響。在本文中，我們將推斷時的擴展視為一個概率推斷任務，並利用基於抽樣的技術來探索具有近似可能性的狀態空間模型的典型集合，而不是直接優化其模式。我們提出了一種新的推斷時擴展方法，通過將基於粒子的蒙特卡羅方法應用於此任務。我們的實證評估表明，我們的方法在各種具有挑戰性的數學推理任務上比我們的確定性搜索對應方法具有4-16倍更好的擴展速率。使用我們的方法，我們展示了Qwen2.5-Math-1.5B-Instruct在僅4次展開中就能超越GPT-4o的準確性，而Qwen2.5-Math-7B-Instruct在僅32次展開中就能達到o1級的準確性。我們的工作不僅提出了一種有效的推斷時擴展方法，還將概率推斷中豐富的文獻與LLMs的推斷時擴展相連接，以在未來工作中開發更加強健的算法。代碼和更多信息可在https://probabilistic-inference-scaling.github.io找到。

使用通用多提示進行越獄
Jailbreaking with Universal Multi-Prompts

Feb 3

ByYu-Ling Hsu, Hsuan Su, Shang-Tse Chen

近年來，大型語言模型（LLMs）取得了快速發展，革新了各種應用，顯著提升了便利性和生產力。然而，除了它們令人印象深刻的能力之外，也出現了道德問題和新型攻擊，如越獄。儘管大多數提示技術專注於為個別案例優化對抗性輸入，但在處理大型數據集時會導致更高的計算成本。較少的研究涉及訓練通用攻擊者以轉移到未見任務的更一般設置。在本文中，我們介紹了JUMP，一種基於提示的方法，旨在使用通用多提示來越獄LLMs。我們還適應了我們的防禦方法，稱為DUMP。實驗結果表明，我們優化通用多提示的方法優於現有技術。

基於激活的大型語言模型合併
Activation-Informed Merging of Large Language Models

Feb 4

ByAmin Heyrani Nobari, Kaveh Alimohammadi, Ali ArjomandBigdeli, Akash Srivastava, Faez Ahmed, Navid Azizan

模型合併是一種方法，它結合了多個經過微調的大型語言模型（LLMs）的參數和嵌入，提供了一種有前途的方法來增強模型在各種任務中的性能，同時保持計算效率。本文介紹了一種稱為啟動信息合併（AIM）的技術，該技術將LLMs的激活空間中的信息整合到合併過程中，以提高性能和韌性。AIM被設計為一種靈活的、補充性的解決方案，適用於任何現有的合併方法。它旨在保留來自基本模型的關鍵權重，借鑒了持續學習（CL）和模型壓縮的原則。利用一個與任務無關的校準集，AIM在合併過程中有選擇地優先考慮關鍵權重。我們以實證方式證明，AIM顯著提升了合併模型在多個基準測試中的性能。我們的研究結果表明，考慮激活空間信息可以在LLMs的模型合併策略中帶來顯著進展，基準性能提高了多達40％。

謎語：潛在的成員推斷與檢索增強生成
Riddle Me This! Stealthy Membership Inference for Retrieval-Augmented Generation

Feb 1

ByAli Naseh, Yuefeng Peng, Anshuman Suri, Harsh Chaudhari, Alina Oprea, Amir Houmansadr

檢索增強生成（RAG）使大型語言模型（LLMs）能夠利用外部知識庫生成具有基礎的回應，而無需修改模型參數。雖然欠缺權重調整可防止通過模型參數進行信息洩露，但這也引入了推理對手利用模型上下文中檢索文檔的風險。現有的成員推理和數據提取方法通常依賴越獄或精心製作的不自然查詢，這些方法很容易被檢測或通過檢索增強生成系統中常見的查詢重寫技術挫敗。在這項工作中，我們提出了一種名為Interrogation Attack（IA）的成員推理技術，針對檢索增強生成數據存儲庫中的文檔。通過製作僅通過目標文檔存在才能回答的自然文本查詢，我們的方法展示了成功的推理，僅需30個查詢，同時保持隱蔽性；與現有方法生成的對抗提示相比，直接檢測器從我們的攻擊中生成的頻率高出約76倍。我們觀察到，在各種不同的檢索增強生成配置中，相對於先前的推理攻擊，TPR@1%FPR提高了2倍，同時每個文檔推理的成本不到0.02美元。

HackerRank-ASTRA：評估大型語言模型在跨領域多文件項目問題上的正確性與一致性
HackerRank-ASTRA: Evaluating Correctness & Consistency of Large Language Models on cross-domain multi-file project problems

Jan 31

ByJun Xing, Mayur Bhatia, Sahil Phulwani, Darshan Suresh, Rafik Matta

評估大型語言模型（LLMs）在真實世界應用的可行性，對於它們在軟體開發任務中的發展和使用提供了寶貴的見解。現有的基準測試通常專注於獨立編碼問題或特定庫，忽略了多文件、基於項目的情境，並缺乏對一致性的嚴格評估。HackerRank-ASTRA基準測試引入了基於項目的編碼問題，反映了真實世界情境。它通過32次運行（k = 32）和中位數標準偏差來評估模型的一致性，同時結合了分類水準分析來評估子技能能力。對65個問題的初步評估顯示，排名前三位的模型 - o1、o1-preview和Claude-3.5-Sonnet-1022 - 實現了相當的平均分數為75％，在表現上沒有統計上顯著的差異。值得注意的是，Claude-3.5-Sonnet-1022在各問題間展現出最高的一致性，具有低變異性（SD = 0.0497），這在統計上與其他模型有顯著差異，突顯了它在真實世界軟體開發任務中的可靠性。

AI研究論文每日精選

每日精選AI研究論文及翻譯

基於機率推論的方法，利用基於粒子的蒙特卡羅方法對LLM進行推論時的縮放
A Probabilistic Inference Approach to Inference-Time Scaling of LLMs using Particle-Based Monte Carlo Methods

Feb 3

ByIsha Puri, Shivchander Sudalairaj, Guangxuan Xu, Kai Xu, Akash Srivastava

HackerRank-ASTRA：評估大型語言模型在跨領域多文件項目問題上的正確性與一致性
HackerRank-ASTRA: Evaluating Correctness & Consistency of Large Language Models on cross-domain multi-file project problems

Jan 31

ByJun Xing, Mayur Bhatia, Sahil Phulwani, Darshan Suresh, Rafik Matta