每日精選AI研究論文及翻譯
可驗證獎勵的強化學習(RLVR)已成為提升大型語言模型(LLMs)推理能力的一種強大方法,但其機制尚未被充分理解。在本研究中,我們從詞元熵模式的新視角對RLVR進行了開創性探索,全面分析了不同詞元如何影響推理性能。通過檢視鏈式思維(CoT)推理中的詞元熵模式,我們觀察到僅有少部分詞元表現出高熵,這些詞元作為關鍵的分岔點,引導模型走向多樣的推理路徑。此外,研究RLVR訓練過程中熵模式的演變發現,RLVR在很大程度上遵循基礎模型的熵模式,主要調整高熵詞元的熵值。這些發現凸顯了高熵詞元(即分岔詞元)對RLVR的重要性。我們最終通過限制策略梯度更新僅作用於分岔詞元來改進RLVR,並揭示了一個超越80/20法則的發現:僅使用20%的詞元,在Qwen3-8B基礎模型上保持與全梯度更新相當的性能,並在Qwen3-32B(AIME'25上+11.04,AIME'24上+7.71)和Qwen3-14B(AIME'25上+4.79,AIME'24上+5.21)基礎模型上顯著超越全梯度更新,展現出強烈的擴展趨勢。相比之下,僅對80%最低熵詞元進行訓練則導致性能顯著下降。這些發現表明,RLVR的有效性主要源於優化決定推理方向的高熵詞元。總體而言,我們的結果強調了通過詞元熵視角理解RLVR的潛力,並利用高熵少數詞元來優化RLVR,從而進一步提升LLM的推理能力。
基於大規模多模態數據集預訓練的視覺-語言模型(VLMs)蘊含了豐富的視覺與語言知識,為機器人技術提供了堅實的基礎。近年來,研究者們不再從零開始訓練機器人策略,而是將VLMs改造成視覺-語言-動作(VLA)模型,實現了自然語言驅動的感知與控制。然而,現有的VLA模型通常規模龐大——參數量常達數十億——導致訓練成本高昂,且實際部署受限。此外,這些模型依賴於學術界和工業界的數據集,忽視了來自低成本機器人平台的社區收集數據日益增長的可用性。本研究提出了一種小型、高效且社區驅動的VLA模型——SmolVLA,它大幅降低了訓練與推理成本,同時保持了競爭力的性能。SmolVLA設計為可在單個GPU上訓練,並能部署於消費級GPU甚至CPU上。為進一步提升響應速度,我們引入了一種異步推理架構,將感知與動作預測與動作執行解耦,通過分塊動作生成實現更高的控制頻率。儘管體積小巧,SmolVLA的性能卻可與體積大十倍的VLA模型相媲美。我們在模擬及真實世界的多個機器人基準測試中評估了SmolVLA,並公開了所有代碼、預訓練模型及訓練數據。
我們推出「推理健身房」(Reasoning Gym, RG),這是一個專為強化學習設計的推理環境庫,其特色在於提供可驗證的獎勵機制。該庫涵蓋了超過100種數據生成器與驗證器,涉及多個領域,包括代數、算術、計算、認知、幾何、圖論、邏輯以及多種常見遊戲。其核心創新在於能夠生成幾乎無限的訓練數據,並可調節其複雜度,這與以往大多數固定不變的推理數據集形成鮮明對比。這種程序化生成的方法使得我們能夠在不同難度層次上進行持續評估。實驗結果證明了RG在評估和強化學習推理模型方面的有效性。
多模態大型語言模型(MLLMs)在推理任務中展現出顯著的潛力,然而在處理需要明確自我反思與自我修正的複雜問題時,仍顯不足,尤其是與單模態文本模型相比。現有的反思方法過於簡化,難以生成有意義且具指導性的反饋,因為預訓練模型的推理能力與知識範圍在初始訓練階段已大體固定。為克服這些挑戰,我們提出了基於群體相對策略優化(GRPO)的多模態自我反思增強推理(SRPO),這是一個兩階段的反思感知強化學習(RL)框架,專門設計用於提升多模態LLM的推理能力。在第一階段,我們在高級MLLM的指導下構建了一個高質量、以反思為核心的數據集,該數據集基於初始回應生成反思,以幫助策略模型學習推理與自我反思。在第二階段,我們在GRPO框架內引入了一種新穎的獎勵機制,該機制鼓勵簡潔且認知意義豐富的反思,同時避免冗餘。通過在多個多模態推理基準(包括MathVista、MathVision、MathVerse和MMMU-Pro)上使用Qwen-2.5-VL-7B和Qwen-2.5-VL-32B進行的大量實驗表明,SRPO在推理準確性和反思質量上均顯著優於現有最先進的模型,取得了顯著的改進。
訓練大型語言模型(LLMs)因其龐大的規模和異質性架構而面臨挑戰。雖然像AdamW這樣的適應性優化器有助於應對梯度變化,但它們在高效且有效的逐參數學習率估計方面仍存在困難,導致訓練不穩定、收斂速度慢,以及與參數高效微調(PEFT)技術的兼容性差。本研究引入了基於梯度分組的縮放(SGG),這是一種優化器封裝,通過動態分組和組特定縮放來改進適應性學習率估計。SGG首先將每層的梯度統計量分組為簇,然後應用簇特定縮放來校準每個參數的學習率,從而施加集體組約束,同時保持精確的逐參數適應。在多樣化的(M)LLM基準測試中,實驗表明SGG能與現有優化器無縫集成,並在不同模型大小下提供一致的增益和更快的收斂速度。其在不同批次大小和學習率下的穩定性,確立了SGG作為LLM優化的穩健選擇。
近期,文本到視頻擴散模型的進展已實現了高質量的視頻合成,但在有限數據和計算資源下,可控生成仍具挑戰性。現有的條件生成微調方法通常依賴於外部編碼器或架構修改,這需要大量數據集,並且通常僅限於空間對齊的條件設置,限制了靈活性和可擴展性。在本研究中,我們提出了時間上下文微調(Temporal In-Context Fine-Tuning, TIC-FT),這是一種高效且多功能的策略,用於將預訓練的視頻擴散模型適應於多樣的條件生成任務。我們的核心思想是沿時間軸將條件幀與目標幀拼接,並插入噪聲水平逐漸增加的中間緩衝幀。這些緩衝幀促進了平滑過渡,使微調過程與預訓練模型的時間動態保持一致。TIC-FT無需改變模型架構,僅需10至30個訓練樣本即可實現強勁性能。我們在多個任務上驗證了該方法,包括圖像到視頻和視頻到視頻生成,使用了如CogVideoX-5B和Wan-14B等大規模基礎模型。大量實驗表明,TIC-FT在條件忠實度和視覺質量上均優於現有基線,同時在訓練和推理過程中保持高效。更多結果,請訪問https://kinam0252.github.io/TIC-FT/。
大型語言模型(LLMs)使智能體能夠通過自由形式的語言互動執行複雜的推理和決策。然而,在開放式語言行動環境中(例如,談判或提問遊戲),行動空間可以表示為詞元的聯合分佈,從而形成一個指數級大的行動空間。在這樣的空間中採樣行動可能導致極端的獎勵稀疏性,這會帶來巨大的獎勵方差,阻礙有效的強化學習(RL)。為了解決這個問題,我們提出了ARIA,這是一種在意圖空間中聚合獎勵的方法,以實現高效且有效的語言智能體訓練。ARIA旨在將自然語言行動從高維的詞元聯合分佈空間投影到低維的意圖空間,在該空間中語義相似的行動被聚類並分配共享的獎勵。這種意圖感知的獎勵聚合通過密集化獎勵信號來減少獎勵方差,促進更好的策略優化。大量實驗表明,ARIA不僅顯著降低了策略梯度方差,還在四個下游任務中平均帶來了9.95%的顯著性能提升,始終優於離線和在線RL基線。
現實世界中的具身智能體面臨著長期任務,這些任務以高層次目標為特徵,需要超越單一動作的多步驟解決方案。要成功應對這些任務,既需要高層次的任務規劃(即將目標分解為子任務),也需要低層次的運動控制(即生成精確的機器人動作)。雖然現有的視覺語言動作(VLA)模型和分層架構在具身任務中展現出潛力,但前者往往在規劃上表現不佳,後者則可能面臨協調問題,兩者都阻礙了性能的提升。我們提出了一種新的統一VLA框架,名為LoHoVLA,以克服這些限制。LoHoVLA利用一個大型預訓練的視覺語言模型(VLM)作為骨幹,分別生成用於子任務生成和機器人動作預測的語言和動作標記。這種共享表示促進了跨任務的更好泛化。此外,LoHoVLA採用了分層閉環控制機制,以減輕來自高層次規劃和低層次控制的錯誤。為了訓練LoHoVLA,我們引入了LoHoSet,這是一個基於Ravens模擬器構建的數據集,包含20個長期任務,每個任務有1,000個專家示範,由視覺觀察、語言目標、子任務和機器人動作組成。實驗結果表明,LoHoVLA在Ravens模擬器中的長期具身任務上顯著超越了分層和標準VLA方法。這些發現強調了統一架構在推進可泛化具身智能方面的潛力。
近期,ChatGPT-4o强大的文本生成图像能力,使得原生多模态大语言模型备受瞩目。然而,其多模态能力仍局限于图像与文本之间。事实上,超越图像之外,理解与生成三维内容的能力同样至关重要。为填补这一空白,我们提出了ShapeLLM-Omni——一款原生三维大语言模型,能够理解并生成任意序列的三维资产与文本。首先,我们训练了一个三维向量量化变分自编码器(VQVAE),将三维对象映射至离散潜在空间,以实现高效且准确的形状表示与重建。基于这些三维感知的离散令牌,我们创新性地构建了一个名为3D-Alpaca的大规模连续训练数据集,涵盖生成、理解与编辑任务,为未来的研究与训练提供了丰富的资源。最后,通过在3D-Alpaca数据集上对Qwen-2.5-vl-7B-Instruct模型进行基于指令的训练,我们的工作为扩展具备基础三维能力的多模态模型提供了有效尝试,为未来三维原生AI的研究做出了贡献。项目页面:https://github.com/JAMESYJL/ShapeLLM-Omni
基於規則的強化學習(RL)在多模態大型語言模型(MLLMs)中的應用,帶來了獨特的挑戰,並可能與純文本領域的研究發現有所偏差,尤其是在感知密集型任務中。本文提供了一項關於基於規則的視覺RL的全面研究,以拼圖作為結構化的實驗框架。拼圖具有內在的真實性、可調節的難度,並需要複雜的決策,使其成為本研究的理想選擇。我們的研究揭示了幾個關鍵發現:首先,我們發現MLLMs在最簡單的拼圖上初始表現接近隨機猜測,但通過微調後能夠達到近乎完美的準確率,並能泛化到複雜的、未見過的配置。其次,在拼圖上的訓練能夠誘導對其他視覺任務的泛化,其有效性與特定的任務配置相關。第三,MLLMs無論是否有明確的推理過程,都能學習並泛化,儘管開源模型通常更傾向於直接回答。因此,即使訓練了逐步推理,它們也可能忽略得出最終答案的思考過程。第四,我們觀察到複雜的推理模式似乎是預先存在的,而非新興的,其頻率隨著訓練和任務難度的增加而增加。最後,我們的結果表明,RL比監督微調(SFT)表現出更有效的泛化能力,而初始的SFT冷啟動階段可能會阻礙後續的RL優化。儘管這些觀察基於拼圖,並可能在其他視覺任務中有所不同,但這項研究為集體理解基於規則的視覺RL及其在多模態學習中的潛力貢獻了一塊有價值的拼圖。代碼可在以下網址獲取:https://github.com/zifuwanggg/Jigsaw-R1。
近期,视频扩散模型在生成机器人决策数据方面展现出强大潜力,而轨迹条件的引入进一步实现了细粒度控制。然而,现有的基于轨迹的方法主要关注单个物体的运动,难以捕捉复杂机器人操作中至关重要的多物体交互。这一局限源于重叠区域中多特征的纠缠,导致视觉保真度下降。为解决此问题,我们提出了RoboMaster,一个通过协作轨迹公式化建模物体间动态的新颖框架。与先前分解物体的方法不同,我们的核心在于将交互过程分解为三个子阶段:交互前、交互中和交互后。每个阶段均利用主导物体的特征进行建模,具体而言,交互前后阶段以机械臂为主导,交互期间则以被操作物体为主导,从而缓解了先前工作中交互期间多物体特征融合的缺陷。为确保视频中主体语义的一致性,我们还引入了基于外观和形状的物体潜在表示。在具有挑战性的Bridge V2数据集上的大量实验,以及野外环境下的评估,均表明我们的方法超越了现有技术,在轨迹控制的机器人操作视频生成领域确立了新的最先进性能。
强化学习(Reinforcement Learning, RL)已成为训练大型语言模型(Large Language Models, LLMs)的一种趋势性范式,尤其是在推理任务中。针对LLMs的有效RL训练需要大规模并行化,并迫切需求高效的训练系统。现有大多数面向LLMs的大规模RL系统采用同步方式,在批量设置中交替进行生成与训练,其中每个训练批次的轨迹由同一(或最新)模型生成。这种做法虽能稳定RL训练,却存在严重的系统效率低下问题。生成过程必须等待批次中最长的输出完成后才能进行模型更新,导致GPU利用率不足。我们提出了AReaL,一个完全异步的RL系统,彻底解耦了生成与训练。AReaL中的轨迹生成工作者持续不断地生成新输出而无需等待,而训练工作者则在收集到一批数据时立即更新模型。AReaL还集成了一系列系统级优化措施,显著提高了GPU利用率。为了稳定RL训练,AReaL通过平衡轨迹生成与训练工作者的工作量来控制数据陈旧度,并采用了一种增强陈旧度处理的PPO变体,以更好地处理过时的训练样本。在数学与代码推理基准上的大量实验表明,与同等GPU数量下最佳的同步系统相比,AReaL实现了高达2.57倍的训练加速,同时保持了匹配甚至更优的最终性能。AReaL的代码可在https://github.com/inclusionAI/AReaL/获取。
大型多模态模型(LMMs)在多种视觉-语言任务中展现了卓越的性能。然而,这些模型在全面理解地球观测(EO)数据方面往往存在困难,而此类数据对于监测环境及人类活动对其影响至关重要。在本研究中,我们提出了EarthMind,一种新颖的视觉-语言框架,旨在实现多粒度、多传感器EO数据的深度理解。EarthMind包含两大核心组件:(1)空间注意力提示(SAP),通过重新分配LLM内部的注意力以增强像素级理解;(2)跨模态融合,将异构模态对齐至共享空间,并根据信息密度自适应调整令牌权重,实现有效融合。为促进多传感器融合评估,我们构建了EarthMind-Bench,一个包含超过2000对人工标注的多传感器图像-问题对的综合基准,覆盖广泛的感知与推理任务。大量实验验证了EarthMind的有效性,其在EarthMind-Bench上达到了最先进的性能,尽管规模仅为4B,却超越了GPT-4o。此外,EarthMind在多个公开的EO基准测试中均优于现有方法,展示了其在统一框架下处理多粒度与多传感器挑战的潜力。
缩放定律通过基于模型规模、计算量和数据量的可预测性能扩展,塑造了机器学习领域的最新进展。与此同时,人工智能计算成本的上升推动了模型压缩技术的发展,特别是量化和稀疏化技术,这些技术应运而生,以缓解大规模训练和推理所带来的高昂计算需求。本文探讨了缩放定律与压缩格式之间的相互作用,探究在训练过程中采用各种压缩表示(如稀疏、标量量化、稀疏量化甚至向量量化格式)时,统一的缩放框架是否能够准确预测模型性能。我们的主要贡献包括验证了一个通用的缩放定律公式,并展示了它不仅适用于单一压缩类型,还能跨压缩类型组合应用。基于此,我们的核心发现是从理论和实证两方面证明,存在一个基于表示拟合随机高斯数据能力的简单“容量”度量,该度量能够稳健地预测多种压缩表示下的参数效率。在实践层面,我们扩展了该公式,以直接比较不同压缩格式的精度潜力,并推导出在稀疏量化格式上训练的更好算法。
現有的大型語言模型(LLMs)在遵循複雜指令方面面臨挑戰,尤其是在存在多個約束條件且這些條件以並行、鏈式和分支結構組織時。一種直觀的解決方案,即思維鏈(CoT),被期望能普遍提升LLMs的能力。然而,我們發現,由於其僅僅是對指令進行表面上的重述,這種基礎的CoT反而對性能產生了負面影響。它未能深入剖析約束條件的組成,以識別它們在不同類型和層次維度上的關係。為此,我們提出了一種系統性的方法,通過激勵推理來提升LLMs處理複雜指令的能力,並實現測試時的計算規模化。首先,我們基於現有的分類體系對複雜指令進行分解,並提出了一種可重複的數據獲取方法。其次,我們利用強化學習(RL)結合可驗證的規則中心獎勵信號,專門培養遵循指令的推理能力。我們通過樣本間的對比來解決複雜指令下推理的淺層和非本質性問題,從而實現更優的CoT執行。此外,我們還利用專家行為克隆來促進從快速思考的LLMs向熟練推理者的穩健分佈轉移。在七個綜合基準上的廣泛評估證實了所提方法的有效性,其中一個1.5B的LLM實現了11.74%的性能提升,其表現可與8B的LLM相媲美。代碼和數據可在https://github.com/yuleiqin/RAIF 獲取。
獎勵建模是應用基於人類反饋的強化學習(RLHF)來對齊大型語言模型(LLMs)以構建安全基礎模型的關鍵步驟。然而,基於布拉德利-特里(BT)模型的獎勵建模假設存在一個全局獎勵函數,無法捕捉到人類偏好固有的多樣性和異質性。因此,這種過度簡化限制了LLMs在支持個性化和多元對齊方面的能力。理論上,我們證明當人類偏好遵循多樣子群的混合分佈時,單一的BT模型存在不可約誤差。雖然現有解決方案,如帶有細粒度註釋的多目標學習,有助於解決這一問題,但它們成本高昂且受預定義屬性的限制,無法完全捕捉人類價值的豐富性。在本研究中,我們引入了MiCRo,這是一個兩階段框架,通過利用大規模二元偏好數據集來增強個性化偏好學習,而無需顯式的細粒度註釋。在第一階段,MiCRo引入了上下文感知的混合建模方法來捕捉多樣的人類偏好。在第二階段,MiCRo整合了一種在線路由策略,該策略根據特定上下文動態調整混合權重以解決歧義,從而實現高效且可擴展的偏好適應,並只需最少的額外監督。在多個偏好數據集上的實驗表明,MiCRo有效地捕捉了多樣的人類偏好,並顯著提升了下游的個性化效果。
人工智慧生成內容(AIGC)在視覺領域的快速進展,已催生出高度逼真的合成圖像與視頻,這得益於如擴散模型等複雜生成框架的推動。儘管這些突破帶來了巨大的機遇,但同時也引發了關於內容真實性與完整性的重大擔憂。目前許多AIGC檢測方法僅作為黑箱式的二元分類器運作,其可解釋性有限,且尚無方法能在統一框架下同時檢測圖像與視頻。此雙重限制削弱了模型的透明度,降低了可信度,並阻礙了實際應用。為應對這些挑戰,我們推出了IVY-FAKE,這是一個專為可解釋的多模態AIGC檢測而設計的新穎、統一且大規模的數據集。與以往覆蓋模態零散、註釋稀疏的基準相比,IVY-FAKE包含了超過150,000個豐富註釋的訓練樣本(圖像與視頻)及18,700個評估樣例,每個樣本均附有超越簡單二元標籤的詳細自然語言推理。基於此,我們提出了Ivy可解釋檢測器(IVY-XDETECTOR),這是一種統一的AIGC檢測與可解釋架構,能夠對圖像與視頻內容進行聯合的可解釋檢測。我們的統一視覺-語言模型在多個圖像與視頻檢測基準上達到了最先進的性能,彰顯了我們數據集與建模框架所帶來的顯著進步。我們的數據已公開於https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake。
鏈式思維(CoT)提示法能夠促進大型語言模型(LLMs)進行複雜推理,包括在信息檢索(IR)中的應用。然而,這種方法常常導致過度思考,使得模型生成過長且語義重複的追蹤路徑,而這些路徑幾乎或完全沒有實際益處。我們在信息檢索中識別出兩個關鍵挑戰:重複的軌跡,即模型反覆訪問相似的狀態;以及偏離用戶意圖的誤導性推理。為解決這些問題,我們提出了狀態機推理(SMR),這是一種基於轉移的推理框架,由離散動作(精煉、重排、停止)組成,支持早期停止和細粒度控制。在BEIR和BRIGHT基準測試上的實驗表明,SMR將檢索性能(nDCG@10)提升了3.4%,同時減少了74.4%的令牌使用量。它能夠跨LLMs和檢索器泛化,無需特定任務的調優,為傳統的CoT推理提供了一個實用的替代方案。代碼及詳細信息請訪問https://github.com/ldilab/SMR。
直接訓練大型語言模型(LLMs)應用於多智能體系統(MAS)仍面臨諸多挑戰,包括複雜的獎勵建模、動態的智能體互動以及嚴苛的泛化需求。本文探討了後訓練技術,特別是監督微調(SFT)和基於可驗證獎勵的強化學習(RLVR),能否有效泛化至多智能體場景。我們以經濟推理作為測試平台,利用其在數學和博弈論中的堅實基礎、對結構化分析推理的需求,以及其在市場設計、資源分配和政策分析等現實應用中的相關性。我們介紹了Recon(像經濟學家一樣推理),這是一個擁有70億參數的開源LLM,基於精心挑選的2,100個高質量經濟推理問題數據集進行後訓練。在經濟推理基準測試和多智能體遊戲上的全面評估顯示,Recon在結構化推理和經濟理性方面有顯著提升。這些結果強調了領域對齊的後訓練在增強推理和智能體對齊方面的潛力,並揭示了SFT和RL在塑造模型行為中的作用。代碼可在https://github.com/MasterZhou1/Recon 獲取。
影像編輯是電腦圖形學、視覺特效(VFX)領域中的一項重要任務,近期基於擴散模型的方法已能實現快速且高品質的成果。然而,對於需要大幅結構變更的編輯任務,如非剛性變形、物件修改或內容生成,仍面臨挑戰。現有的少步驟編輯方法常產生不相關的紋理等瑕疵,或難以保留源圖像的關鍵屬性(例如姿態)。我們提出了Cora,這是一種新穎的編輯框架,通過引入對應感知的噪聲校正和插值注意力圖來解決這些限制。我們的方法通過語義對齊源圖像與目標圖像間的紋理和結構,實現精確的紋理轉移,並在必要時生成新內容。Cora提供了在內容生成與保留之間平衡的控制。大量實驗表明,無論是定量還是定性分析,Cora在保持結構、紋理和身份識別方面均表現卓越,涵蓋姿態變化、物件添加及紋理精修等多種編輯場景。用戶研究證實,Cora提供的結果優於其他替代方案。
依托大型语言模型(LLM)驱动的网页浏览代理,能够以类人的方式操作浏览器,为自动化日常任务提供了一条高度透明的路径。随着网页代理能力的不断提升,并在通用浏览任务中展现出熟练度,一个关键问题浮现:它们能否超越通用浏览,稳健地处理那些繁琐复杂的任务,或是人类常避之不及的杂务?本文中,我们引入了WebChoreArena,一个全新的、完全可复现的基准测试,包含532项精心设计的任务,旨在将WebArena的范畴从通用浏览扩展至更为劳动密集且乏味的任务领域。WebChoreArena系统性地整合了三大关键挑战:(一)海量记忆任务,要求准确检索观察中的大量信息;(二)计算任务,需精确的数学推理能力;(三)长期记忆任务,跨越多个网页,考验长期记忆能力。基于完全可复现且广泛采用的WebArena四大模拟环境构建,WebChoreArena确保了严格的复现性,并支持与已确立的WebArena基准进行公平、直接的比较,为代理进展提供了关键洞见。我们的实验结果显示,随着LLM的演进,以GPT-4o、Claude 3.7 Sonnet及Gemini 2.5 Pro为代表,在WebChoreArena上的性能均有显著提升。这些发现表明,WebChoreArena非常适合以更高的清晰度衡量顶尖LLM的进步。然而,结果也指出,即便是Gemini 2.5 Pro,相较于WebArena仍有较大提升空间,凸显了WebChoreArena带来的更高挑战。
當今的人工智慧系統具有人類設計的固定架構,無法自主且持續地自我改進。人工智慧的進步本身可以實現自動化。若能安全地進行,這將加速人工智慧的發展,使我們能更早地收穫其益處。元學習可以自動化新演算法的發現,但受到一階改進和人類設計的合適搜索空間的限制。哥德爾機提出了一種理論上的替代方案:一種自我改進的人工智慧,能夠以可證明有益的方式反覆修改自身。然而,在實踐中證明大多數變更具有淨效益是不可能的。我們引入了達爾文哥德爾機(DGM),這是一種自我改進系統,它迭代地修改自己的代碼(從而也提高了修改自身代碼庫的能力),並使用編碼基準對每次變更進行實證驗證。受達爾文進化和開放性研究的啟發,DGM維護了一個生成的編碼代理的檔案庫。它通過從檔案庫中採樣一個代理,並使用基礎模型創建一個新的、有趣的版本來擴展檔案庫。這種開放性探索形成了一棵不斷增長的多樣化、高質量代理樹,並允許並行探索搜索空間中的許多不同路徑。實證表明,DGM自動提高了其編碼能力(例如,更好的代碼編輯工具、長上下文窗口管理、同行評審機制),在SWE-bench上的性能從20.0%提高到50.0%,在Polyglot上從14.2%提高到30.7%。此外,DGM顯著優於沒有自我改進或開放性探索的基線。所有實驗均在安全措施下進行(例如,沙盒化、人類監督)。DGM是朝著自我改進人工智慧邁出的重要一步,能夠在展開無盡創新的路徑上收集自己的墊腳石。
視覺語言模型(VLMs)被期望能進行有效的多模態推理並做出邏輯一致的決策,這對於圖表理解和空間問題解決等任務至關重要。然而,當前的VLM推理缺乏大規模且結構良好的訓練數據集。為彌補這一差距,我們提出了VisualSphinx,這是一種首創的大規模合成視覺邏輯推理訓練數據。為應對基於答案的圖像合成挑戰,我們提出了一種規則到圖像的合成流程,該流程從種子問題中提取並擴展謎題規則,並生成用於謎題樣本組裝的基礎合成圖像的代碼。實驗表明,使用GRPO在VisualSphinx上訓練的VLM受益於我們數據集的邏輯一致性和可讀性,並在邏輯推理任務上表現出提升的性能。從VisualSphinx發展出的增強推理能力也對其他推理任務如代數推理、算術推理和幾何推理有所助益。
负向引导——明确抑制不期望的属性——仍然是扩散模型中的一个基本挑战,尤其是在少步采样机制中。虽然无分类器引导(CFG)在标准设置下表现良好,但在激进的采样步长压缩下,由于正向与负向分支的预测分歧,其效果会失效。我们提出了归一化注意力引导(NAG),这是一种高效、无需训练的机制,通过在注意力空间中进行基于L1归一化和优化的外推来实现。NAG在CFG失效的情况下恢复了有效的负向引导,同时保持了生成质量。与现有方法不同,NAG能够跨架构(如UNet、DiT)、采样机制(少步、多步)和模态(图像、视频)通用,作为一个通用插件,仅需极少的计算开销。通过大量实验,我们展示了在文本对齐(CLIP分数)、保真度(FID、PFID)以及人类感知质量(ImageReward)方面的一致提升。我们的消融研究验证了每个设计组件的有效性,而用户研究则证实了对NAG引导输出的显著偏好。作为一种无需重新训练的模型无关推理方法,NAG为所有现代扩散框架提供了轻松实现的负向引导——伪代码见附录!
基于扩散的语言模型提供了一种引人注目的替代方案,相较于自回归(AR)模型,它能够实现并行且可控的生成。在这一系列模型中,掩码扩散模型(MDMs)展现了最强的性能,但在困惑度上仍不及AR模型,并且缺乏关键推理效率特性——尤其是KV缓存。在本研究中,我们引入了Eso-LMs,这是一个融合了AR与MDM范式的新模型家族,能够在两者之间实现困惑度的平滑过渡,同时克服各自的局限。Eso-LMs在标准语言建模基准测试中确立了新的技术前沿。尤为关键的是,我们**首次为MDMs引入了KV缓存**,同时保留了并行生成能力,显著提升了推理效率。结合优化的采样策略,我们的方法相较于标准MDMs实现了高达**65倍**的推理加速,相较于先前的半自回归方法也达到了**4倍**的加速。项目页面提供了代码及模型检查点:[http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs)
Open Whisper式語音模型(OWSM)項目利用學術規模的資源開發了一系列完全開源的語音基礎模型,但其訓練數據仍顯不足。本研究通過整合YODAS——一個擁有創意共享許可證的大規模網絡爬取數據集——來增強OWSM。然而,由於YODAS的原始特性,其整合過程並非易事,這帶來了諸如錯誤的語言標籤和音頻文本不對齊等挑戰。為解決這些問題,我們開發了一個基於公共工具包的可擴展數據清洗流程,最終得到了一個包含75種語言、總計166,000小時語音的數據集。我們的新系列OWSM v4模型,在這一精選數據集及現有OWSM數據的基礎上進行訓練,在多語言基準測試中顯著超越了之前的版本。在多種場景下,我們的模型甚至與Whisper和MMS等前沿工業模型持平或超越。我們將通過ESPnet工具包公開發布清洗後的YODAS數據、預訓練模型及所有相關腳本。
先前的研究已探讨了多模态大语言模型(MLLMs)通过将三维场景解读为视频来理解其应用。这些方法通常依赖于全面的三维数据输入,如点云或重建的鸟瞰图(BEV)。在本研究中,我们通过增强MLLMs直接从视频数据中理解和推理三维空间的能力,无需额外三维输入,推动了该领域的发展。我们提出了一种新颖且高效的方法——视频三维几何大语言模型(VG LLM)。该方法采用三维视觉几何编码器,从视频序列中提取三维先验信息,并将此信息与视觉标记整合后输入MLLM。大量实验表明,我们的方法在直接从视频源学习的多种三维场景理解与空间推理任务中取得了显著进步。尤为引人注目的是,我们的4B模型不依赖显式三维数据输入,在VSI-Bench评估中不仅与现有最先进方法竞争,甚至超越了Gemini-1.5-Pro。
近期,生成式人工智慧(Generative AI)與大型語言模型(Large Language Models, LLMs)的進展,使得高度逼真的合成內容得以創建,這引發了對其可能被惡意利用(如散佈錯誤資訊與操縱輿論)的擔憂。此外,由於缺乏評估真實場景下泛化能力的穩健基準,檢測機器生成文本(Machine-Generated Text, MGT)仍具挑戰性。在本研究中,我們提出了一種流程,用於測試當前最先進的MGT檢測器(例如Mage、Radar、LLM-DetectAIve)對基於語言學的對抗攻擊的韌性。為了挑戰這些檢測器,我們利用直接偏好優化(Direct Preference Optimization, DPO)對語言模型進行微調,將MGT的風格轉向人類書寫文本(Human-Written Text, HWT)。此方法利用了檢測器對風格線索的依賴性,使得新生成的文本更難被檢測。此外,我們分析了對齊過程中所誘導的語言轉變,以及檢測器用於識別MGT文本的特徵。我們的結果顯示,檢測器在面對相對少量的示例時容易被欺騙,導致檢測性能顯著下降。這凸顯了改進檢測方法並使其對未見過的領域內文本具有魯棒性的重要性。
通過可驗證獎勵的強化學習(RLVR)訓練的大型語言模型(LLMs)在具有明確且可自動化驗證的任務上取得了突破,例如軟件編程和數學問題。然而,將RLVR擴展至電子設計自動化(EDA),尤其是從自然語言(NL)規格自動生成硬件描述語言(HDLs)如Verilog,面臨三個關鍵挑戰:缺乏自動化且準確的驗證環境、高質量的NL-代碼對稀缺,以及RLVR的計算成本過高。為此,我們引入了CodeV-R1,一個用於訓練Verilog生成LLMs的RLVR框架。首先,我們開發了一個基於規則的測試平台生成器,能夠對黃金參考進行穩健的等價檢查。其次,我們提出了一種往返數據合成方法,將開源Verilog片段與LLM生成的NL描述配對,通過生成的測試平台驗證代碼-NL-代碼的一致性,並過濾掉不等價的示例以產生高質量數據集。第三,我們採用了一個兩階段的“蒸餾後RL”訓練管道:蒸餾用於推理能力的冷啟動,隨後是自適應DAPO,這是我們新穎的RLVR算法,能夠通過自適應調整採樣率來降低訓練成本。最終的模型CodeV-R1-7B在VerilogEval v2和RTLLM v1.1上分別達到了68.6%和72.9%的pass@1,超越了先前最先進的模型12~20%,同時匹配甚至超過了671B DeepSeek-R1的性能。我們將發布我們的模型、訓練管道和數據集,以促進EDA和LLM社區的研究。
開放式基準測試對於評估和推進大型語言模型至關重要,它們提供了可重現性和透明度。然而,其易於獲取的特點也使其容易成為測試集污染的目標。在本研究中,我們引入了DyePack框架,該框架利用後門攻擊來識別在訓練過程中使用了基準測試集的模型,而無需訪問模型的損失、logits或任何內部細節。就像銀行將染料包與鈔票混合以標記搶劫者一樣,DyePack將後門樣本與測試數據混合,以標記那些在訓練中使用過這些數據的模型。我們提出了一種結合多個具有隨機目標的後門的原則性設計,使得在標記每個模型時能夠精確計算假陽性率(FPR)。這在理論上防止了錯誤指控,同時為每個檢測到的污染案例提供了強有力的證據。我們在三個數據集上的五個模型中評估了DyePack,涵蓋了多項選擇題和開放式生成任務。對於多項選擇題,它成功檢測出了所有受污染的模型,在MMLU-Pro和Big-Bench-Hard上使用八個後門時,保證的FPR分別低至0.000073%和0.000017%。對於開放式生成任務,它表現出良好的泛化能力,在Alpaca上使用六個後門時,以僅0.127%的保證假陽性率識別出了所有受污染的模型。
分詞效率對大型語言模型(LLMs)的性能與成本具有關鍵影響,然而大多數模型依賴於針對通用語料庫優化的靜態分詞器。這些分詞器的固定詞彙表往往無法適應特定領域或語言的輸入,導致更長的分詞序列和更高的計算成本。我們提出了zip2zip框架,使LLMs能夠在推理時動態調整分詞詞彙表,從而生成更少的分詞並實現更快的推理。zip2zip包含三個關鍵組件:(1)基於Lempel-Ziv-Welch(LZW)壓縮的分詞器,能夠在運行時逐步將分詞壓縮為可重用的“超分詞”;(2)嵌入層,在運行時計算新形成的超分詞的嵌入;(3)一種因果語言建模變體,訓練模型以操作於超分詞化的壓縮序列。我們展示了一個現有的LLM可以在10 GPU小時內通過參數高效的微調實現zip2zip化。由此產生的zip2zip LLMs在推理時有效地學會使用超分詞,將輸入和輸出序列長度減少20-60%,並顯著改善了推理延遲。
面向任務的對話系統常面臨這樣的困境:當用戶話語看似語義完整,卻缺乏必要的結構化信息以觸發適當的系統行動時,便難以有效應對。這源於用戶往往未能完全理解自身需求,而系統卻需要精確的意圖定義。當前基於大型語言模型(LLM)的代理無法有效區分語言表達的完整性與上下文可觸發性,缺乏協作意圖形成的框架。我們提出了STORM框架,通過UserLLM(擁有完整內部信息訪問權限)與AgentLLM(僅可觀察外部行為)之間的對話,模擬信息不對稱的動態過程。STORM生成標註語料庫,捕捉表達軌跡與潛在認知轉變,從而系統分析協作理解的發展。我們的貢獻包括:(1)形式化對話系統中的信息不對稱處理;(2)建模意圖形成,追蹤協作理解的演進;(3)評估指標,衡量內部認知的提升與任務表現。在四種語言模型上的實驗表明,在某些情境下,適度的不確定性(40-60%)可能優於完全透明,且模型特定的模式提示我們重新思考人機協作中信息完整性的最優程度。這些發現深化了對不對稱推理動態的理解,並為不確定性校準的對話系統設計提供了洞見。
模型蒸餾已成為創建體積更小、可部署且保留大型系統能力的語言模型的關鍵技術。然而,其廣泛部署引發了對抗操縱韌性的擔憂。本文探討了蒸餾模型在訓練過程中對抗性偏見內容注入的脆弱性。我們證明,攻擊者可以通過極少量的數據污染,將微妙偏見注入教師模型,這些偏見隨後傳播至學生模型並顯著放大。我們提出了兩種傳播模式:無目標傳播,即偏見影響多項任務;以及目標傳播,專注於特定任務,同時保持其他區域的正常行為。僅需25個污染樣本(0.25%的污染率),學生模型在目標場景下生成偏見回應的機率高達76.9%,超過教師模型的69.4%。在無目標傳播中,學生模型在未見任務上對抗性偏見出現的頻率是教師模型的6至29倍。我們在六種偏見類型(定向廣告、釣魚鏈接、敘事操控、不安全編碼實踐)、多種蒸餾方法及涵蓋文本與代碼生成的不同模態中驗證了這些發現。評估揭示了現有防禦措施——困惑度過濾、偏見檢測系統及基於大語言模型的自動評分框架——在抵禦此類攻擊上的不足。結果暴露了蒸餾模型中的重大安全漏洞,凸顯了專用保護措施的迫切需求。我們提出了構建有效對抗性偏見緩解策略的實用設計原則。
影片異常理解(VAU)對於智慧城市、安全監控和災害預警系統等應用至關重要,但由於其對細粒度時空感知和模糊情境下穩健推理的需求,這項任務仍具挑戰性。儘管異常檢測技術已取得進展,現有方法往往缺乏可解釋性,且難以捕捉異常事件的因果與上下文關聯。這一限制因缺乏全面評估異常情境下推理能力的基準而進一步加劇。為應對這兩大挑戰,我們提出了VAU-R1,這是一個基於多模態大型語言模型(MLLMs)的數據高效框架,通過強化微調(RFT)來增強異常推理能力。此外,我們推出了VAU-Bench,這是首個專為影片異常推理設計的思維鏈基準,包含多選題、詳細推理過程、時間標註和描述性字幕。實驗結果表明,VAU-R1在多樣化情境下顯著提升了問答準確性、時間定位能力和推理連貫性。我們的方法與基準共同為可解釋且具備推理意識的影片異常理解奠定了堅實基礎。我們的程式碼已公開於https://github.com/GVCLab/VAU-R1。
在網絡有害內容日益增多的背景下,去毒化——即重寫有害語言為無毒文本的任務——變得愈發重要。然而,由於人工標註的成本和敏感性,尤其是針對仇恨言論的高質量平行數據集仍然稀缺。本文提出了一種新穎的基於GPT-4o-mini的大型語言模型(LLM)在線管道,用於自動化去毒化。我們首先通過用LLM替代人工標註者來複製ParaDetox管道,並展示LLM的表現與人工標註相當。在此基礎上,我們構建了PARADEHATE,這是一個專門用於仇恨言論去毒化的大規模平行數據集。我們發布了PARADEHATE作為一個包含超過8K仇恨/非仇恨文本對的基準,並評估了多種基線方法。實驗結果表明,如BART等模型在PARADEHATE上進行微調後,在風格準確性、內容保留和流暢性方面表現更佳,證明了LLM生成去毒化文本作為人工標註的可擴展替代方案的有效性。
檢索增強生成(RAG)技術提升了回答的時效性與事實準確性。然而,現有的評估方法鮮少測試這些系統如何應對現實世界中的噪音、內部與外部檢索上下文之間的衝突,或是快速變動的事實。我們引入了檢索感知的魯棒性評估(RARE),這是一個統一的框架與大規模基準,旨在對動態且時效性強的語料庫進行查詢與文獻擾動的聯合壓力測試。RARE的核心特徵之一是其基於知識圖譜的合成管道(RARE-Get),該管道能自動從定製語料庫中提取單跳與多跳關係,並無需人工干預即可生成多層級問題集。利用這一管道,我們構建了一個數據集(RARE-Set),涵蓋了400份專家級別的時效性財經、經濟與政策文獻,以及48,322個問題,這些問題的分佈隨著基礎來源的變化而演進。為了量化系統的韌性,我們形式化了檢索條件下的魯棒性指標(RARE-Met),這些指標捕捉了模型在查詢、文獻或現實世界檢索結果被系統性改變時,保持正確或恢復的能力。我們的結果顯示,RAG系統對擾動表現出驚人的脆弱性,無論生成器的大小或架構如何,文獻魯棒性始終是最薄弱的環節。在所有領域中,RAG系統在多跳查詢上的魯棒性均低於單跳查詢。
大型语言模型(LLMs)越来越多地在单一答案选择题任务上进行评估,然而许多现实世界的问题需要从一组选项中识别所有正确答案。这一能力仍未被充分探索。我们引入了SATA-BENCH,这是首个专门用于评估LLMs在“选择所有适用项”(SATA)问题上的基准测试,涵盖阅读理解、法律和生物医学等多个领域。我们对27个开源和专有模型的评估揭示了一个显著差距:即使是最强的模型也仅达到41.8%的精确匹配率,暴露了LLMs在可靠识别所有正确答案方面的不足。我们发现这一弱点源于两个核心挑战:选择偏见——模型倾向于某些选项而忽略内容,以及数量偏见——模型无法预测正确答案的数量。为了解决这些问题,我们提出了Choice Funnel,一种结合了令牌去偏和自适应阈值的解码策略,以引导模型做出完整且准确的选择。Choice Funnel在精确匹配率上比竞争基线高出29%,同时将推理成本降低超过64%。我们的研究揭示了当前LLMs的基本局限性,并引入了一个新的框架来诊断和改进多答案推理。我们发布了SATA-BENCH和Choice Funnel,以促进LLM在现实多答案应用中的稳健决策能力发展。
基於文本引導的三維編輯旨在精確地修改語義相關的局部三維區域,這在從三維遊戲到電影製作等多種實際應用中具有顯著潛力。現有方法通常遵循一種視角無差別的模式:不加區分地編輯二維視圖並將其投影回三維空間。然而,這些方法忽視了不同視角間的相互依賴性,導致多視角編輯的不一致性。在本研究中,我們提出理想的統一三維編輯可通過一種漸進視角模式實現,該模式將編輯語義從編輯顯著的視角傳播至其他編輯稀疏的視角。具體而言,我們提出了Pro3D-Editor這一新穎框架,主要包括主視角採樣器、關鍵視角渲染器及全視角精煉器。主視角採樣器動態採樣並編輯最具編輯顯著性的視角作為主視角。關鍵視角渲染器通過其多視角專家混合低秩適應(MoVE-LoRA)技術,精確地將編輯語義從主視角傳播至其他關鍵視角。全視角精煉器基於已編輯的多視角對三維物體進行編輯與精煉。大量實驗表明,我們的方法在編輯準確性和空間一致性方面均優於現有方法。
不斷擴增的計算成本和有限的資源凸顯了預算迭代訓練的迫切需求,其目標是在預定的迭代預算內實現最佳學習。雖然學習率調度從根本上影響著不同網絡和任務的性能,特別是在預算迭代情境下,但其設計仍主要依賴於啟發式方法,缺乏理論基礎。此外,最佳學習率調度需要通過大量的試錯來選擇,這使得訓練過程效率低下。在本研究中,我們提出了統一預算感知(UBA)調度,這是一種基於理論的學習率調度方法,在不同受限訓練預算下,於多樣化的架構和任務中持續優於常用調度。首先,我們通過構建一個新穎的訓練預算感知優化框架來彌合這一差距,該框架明確考慮了對景觀曲率變化的魯棒性。從這一框架中,我們推導出UBA調度,它由單一超參數φ控制,在靈活性與簡潔性之間提供了一種平衡,消除了對每個網絡進行數值優化的需求。此外,我們建立了φ與條件數之間的理論聯繫,為我們的方法增添了解釋和合理性。同時,我們證明了不同φ值下的收斂性,並通過理論分析和實證結果提供了選擇φ的實用指南。大量的實驗結果表明,UBA在不同訓練迭代預算下,跨越網絡架構(如ResNet、OLMo)和規模的多樣化視覺和語言任務中,始終超越常用調度。
本文通过建立全面的理论指导方针并引入一种新颖的评估框架,解决了阿拉伯语语言模型评估中的关键空白。我们首先分析了现有的阿拉伯语评估数据集,识别出在语言准确性、文化一致性及方法论严谨性方面存在的显著问题。为应对大型语言模型(LLMs)中的这些局限,我们提出了阿拉伯深度迷你数据集(ADMD),这是一个精心策划的包含490个挑战性问题的集合,涵盖十大主要领域(42个子领域,见图1)。利用ADMD,我们评估了五种领先的语言模型:GPT-4、Claude 3.5 Sonnet、Gemini Flash 1.5、CommandR 100B和Qwen-Max。我们的研究结果显示,不同模型在各个领域中的表现存在显著差异,尤其是在需要深厚文化理解和专业知识领域面临较大挑战。Claude 3.5 Sonnet以30%的整体准确率表现最佳,在阿拉伯数学理论、阿拉伯语言及伊斯兰领域展现出相对优势。本研究不仅为提升阿拉伯语语言模型评估提供了理论基础,还强调了在技术能力之外,文化理解能力的重要性,为实践提供了深刻洞见。
本文通过建立全面的理论指导方针并引入一种新颖的评估框架,解决了阿拉伯语语言模型评估中的关键空白。我们首先分析了现有的阿拉伯语评估数据集,识别出在语言准确性、文化一致性及方法论严谨性方面存在的显著问题。为应对大型语言模型(LLMs)中的这些局限,我们提出了阿拉伯深度迷你数据集(ADMD),这是一个精心策划的包含490个挑战性问题的集合,涵盖十大主要领域(42个子领域,见图1)。利用ADMD,我们评估了五种领先的语言模型:GPT-4、Claude 3.5 Sonnet、Gemini Flash 1.5、CommandR 100B和Qwen-Max。我们的研究结果显示,不同模型在各个领域中的表现存在显著差异,尤其是在需要深厚文化理解和专业知识领域面临较大挑战。Claude 3.5 Sonnet以30%的整体准确率表现最佳,在阿拉伯数学理论、阿拉伯语言及伊斯兰领域展现出相对优势。本研究不仅为提升阿拉伯语语言模型评估提供了理论基础,还强调了在技术能力之外,文化理解能力的重要性,为实践提供了深刻洞见。
從文本生成涉及複雜新穎物體排列的圖像,對於當前的文本到圖像(T2I)模型而言,仍然是一個重大挑戰。儘管先前基於佈局的方法利用二維佈局的空間約束改善了物體排列,但它們往往難以捕捉三維定位,並犧牲了質量和連貫性。在本研究中,我們引入了ComposeAnything,這是一個新穎的框架,旨在不重新訓練現有T2I模型的情況下,提升組合圖像的生成質量。我們的方法首先利用大型語言模型(LLMs)的鏈式思維推理能力,從文本中生成2.5D語義佈局,這些佈局包含帶有深度信息的二維物體邊界框以及詳細的標題。基於此佈局,我們生成一個空間和深度感知的物體粗略組合,捕捉到預期的構圖,作為一個強大且可解釋的先驗,替代了基於擴散的T2I模型中的隨機噪聲初始化。這一先驗通過物體先驗強化與空間控制的去噪過程引導去噪,實現了組合物體與連貫背景的無縫生成,同時允許對不準確的先驗進行細化。在T2I-CompBench和NSR-1K基準測試中,針對包含二維/三維空間排列、高物體數量及超現實構圖的提示,ComposeAnything超越了現有的最先進方法。人類評估進一步證明,我們的模型能夠生成高質量圖像,其構圖忠實地反映了文本內容。
本文介紹了在線多模態對話回應生成(Online Multimodal Conversational Response Generation, OMCRG),這是一項旨在根據說話者的多模態輸入,實時生成同步的言語與非言語聽眾反饋的新任務。OMCRG反映了自然的雙人互動,並在實現聽眾生成的音頻與面部反應之間的同步性方面提出了新的挑戰。為應對這些挑戰,我們創新性地引入文本作為中間模態,以橋接音頻與面部反應。基於此,我們提出了OmniResponse,這是一個多模態大語言模型(Multimodal Large Language Model, MLLM),能夠自回歸地生成高質量的多模態聽眾回應。OmniResponse利用了一個預訓練的大語言模型,並增強了兩個新組件:Chrono-Text,它為生成的文本標記提供時間錨定;以及TempoVoice,這是一個可控的在線文本轉語音(TTS)模塊,能夠生成與面部反應同步的語音。為支持進一步的OMCRG研究,我們提出了ResponseNet,這是一個包含696個高質量雙人互動的新數據集,這些互動具有同步的分屏視頻、多通道音頻、轉錄文本以及面部行為註釋。在ResponseNet上進行的全面評估表明,OmniResponse在語義語音內容、音視頻同步性以及生成質量方面顯著優於基準模型。
大型语言模型(LLMs)在复杂推理任务中取得了显著成功,但其推理过程仍存在计算效率低下的问题。我们观察到,许多主流LLMs中存在一种常见的失效模式,即“过度思考”,即使面对简单查询,模型也会生成冗长且偏离主题的推理轨迹。近期研究尝试通过设定固定的token预算来缓解这一问题,然而,这可能导致“思考不足”,尤其是在处理更复杂问题时。通过实证分析,我们发现这种低效往往源于不明确的问题解决策略。为对此进行形式化描述,我们开发了一个理论模型——贝叶斯预算分配模型(BBAM),该模型将推理过程建模为一系列具有不同不确定性的子问题序列,并引入E^3指标以捕捉正确性与计算效率之间的权衡。基于BBAM的理论成果,我们提出了“规划与预算”框架,这是一个模型无关的测试时框架,能够将复杂查询分解为子问题,并根据自适应调度估计的复杂性分配token预算。“规划与预算”框架在一系列任务和模型中提升了推理效率,实现了高达+70%的准确率提升、-39%的token减少以及E^3指标187.5%的改进。尤为值得一提的是,该框架使较小模型(DS-Qwen-32B)的效率提升至与较大模型(DS-LLaMA-70B)相当,展示了“规划与预算”在不重新训练的情况下弥合性能差距的能力。我们的代码已公开于anonymous.4open.science/r/P-and-B-6513/。
多项研究已探讨了大型语言模型(LLMs)在编码任务中的机制,但多数集中于单语环境下的编程语言(PLs)。本文中,我们探究了LLMs概念空间中多种编程语言与英语之间的关系。我们利用两个基于Llama的模型,对21对编程语言进行了少量样本的翻译任务。通过解码任务过程中中间层的嵌入向量,我们观察到概念空间更接近于英语(包括编程语言关键词),并在中间层的后半部分赋予英语标记以高概率。我们分析了11种编程语言及英语的神经元激活情况,发现尽管语言特异性神经元主要集中于底层,但每种编程语言独有的神经元则倾向于出现在顶层。对于那些与多种其他编程语言高度对齐的编程语言,识别其语言特异性神经元并不可行。这些编程语言往往拥有比其他编程语言更大的关键词集,并且在翻译任务中无论输入/输出为何种编程语言,它们都更接近模型的概念空间。我们的发现为理解LLMs内部如何表征编程语言提供了洞见,揭示了模型概念空间中的结构模式。代码可在https://github.com/cisnlp/code-specific-neurons获取。
我們推出SealQA,這是一個新的挑戰基準,用於評估在網絡搜索產生衝突、噪音或無用結果的事實尋求問題上,增強搜索能力的語言模型。SealQA分為三種類型:(1) Seal-0(主要)和(2) Seal-Hard,這兩者評估事實準確性和推理能力,其中Seal-0專注於最具挑戰性的問題,這些問題通常使聊天模型(例如GPT-4.1)的準確率接近零;以及(3) LongSeal,它將SealQA擴展到測試長上下文、多文檔推理的“大海撈針”情境中。我們的評估揭示了當前模型的關鍵限制:即使是前沿的大型語言模型在所有SealQA類型中表現都不佳。在Seal-0上,配備了o3和o4-mini等工具的前沿代理模型在最佳推理努力下,準確率分別僅為17.1%和6.3%。我們發現,像DeepSeek-R1-671B和o3-mini這樣的高級推理模型對噪音搜索結果極為敏感。值得注意的是,增加測試時的計算資源並未在o3-mini、o4-mini和o3中帶來可靠的性能提升,性能往往在早期就達到平台期甚至下降。此外,雖然最近的模型受“迷失在中間”問題的影響較小,但在LongSeal中面對大量干擾文檔時,它們仍然無法可靠地識別相關文檔。為了促進未來的研究,我們在huggingface.co/datasets/vtllms/sealqa上發布了SealQA。
大型语言模型(LLMs)近期被应用于预测任务,部分研究声称这些系统的表现可与人类媲美甚至超越。本文主张,作为学术共同体,我们应对此类结论持审慎态度,因为评估LLM预测者面临独特的挑战。我们识别出两大类问题:(1)由于多种形式的时间信息泄露,难以信赖评估结果;(2)从评估表现外推至现实世界预测存在困难。通过系统性分析及先前研究中的具体实例,我们展示了评估缺陷如何引发对当前及未来性能声明的担忧。我们强调,需要更为严谨的评估方法,以自信地评定LLMs的预测能力。
分佈匹配蒸餾(Distribution Matching Distillation, DMD)已成功應用於如Stable Diffusion(SD)1.5等文本至圖像擴散模型。然而,傳統的DMD在處理大規模基於流的文本至圖像模型,如SD 3.5和FLUX時,面臨收斂困難。本文首先分析了將傳統DMD應用於大規模模型時所遇到的問題。隨後,為克服可擴展性挑戰,我們提出了隱式分佈對齊(Implicit Distribution Alignment, IDA)來規範生成器與虛假分佈之間的距離。此外,我們提出了段內指導(Intra-Segment Guidance, ISG)以重新定位教師模型中的時間步重要性分佈。僅使用IDA,DMD即可在SD 3.5上實現收斂;同時採用IDA與ISG,DMD則能在SD 3.5和FLUX.1 dev上實現收斂。結合其他改進措施,如擴大判別器模型規模,我們最終的模型——名為SenseFlow——在基於擴散的文本至圖像模型(如SDXL)及基於流匹配的模型(如SD 3.5 Large和FLUX)的蒸餾過程中展現出卓越性能。源代碼將公佈於https://github.com/XingtongGe/SenseFlow。
神經音頻編解碼器在將原始音頻波形高效映射為離散標記表示方面取得了顯著進展,這為當代音頻生成模型奠定了基礎。然而,現有的大多數編解碼器主要針對重建質量進行優化,往往以犧牲編碼標記的下游可建模性為代價。為克服這一瓶頸,我們引入了MagiCodec,一種基於單層流式Transformer的新型音頻編解碼器。MagiCodec設計了一個多階段訓練管道,結合了高斯噪聲注入和潛在正則化,明確旨在增強生成代碼的語義表達能力,同時保持高重建保真度。我們從頻域角度分析了噪聲注入的效果,證明了其在衰減高頻成分和促進穩健標記化方面的有效性。大量實驗評估表明,MagiCodec在重建質量和下游任務上均超越了最先進的編解碼器。值得注意的是,MagiCodec生成的標記呈現出類似自然語言的Zipf分佈,從而提高了與基於語言模型的生成架構的兼容性。代碼和預訓練模型可在https://github.com/Ereboas/MagiCodec獲取。
檢索增強型語言模型(RALMs)代表了一種經典範式,其中模型通過專門模塊檢索外部知識來增強生成能力。近期,代理技術的進步使得大型語言模型(LLMs)能夠自主利用工具進行檢索、規劃和推理。儘管現有的基於訓練的方法顯示出潛力,但其代理能力受到訓練期間使用的特定任務數據固有特性的限制。為了進一步提升代理的通用搜索能力,我們提出了一種新穎的預訓練框架——MaskSearch。在預訓練階段,我們引入了檢索增強掩碼預測(RAMP)任務,模型在此任務中學習利用搜索工具來填充大量預訓練數據中的掩碼片段,從而為LLMs獲取通用的檢索和推理能力。之後,模型在下游任務上進行訓練以實現進一步的提升。我們結合了監督微調(SFT)和強化學習(RL)進行訓練。對於SFT,我們結合基於代理和基於蒸餾的方法生成訓練數據,首先構建一個由規劃者、重寫者、觀察者組成的多代理系統,隨後是一個自我進化的教師模型。而在RL方面,我們採用DAPO作為訓練框架,並採用由答案獎勵和格式獎勵組成的混合獎勵系統。此外,我們引入了一種課程學習方法,使模型能夠根據掩碼片段的數量從易到難逐步學習。我們在開放域多跳問答場景中評估了我們框架的有效性。通過大量實驗,我們證明MaskSearch顯著提升了基於LLM的搜索代理在域內和域外下游任務上的性能。
随着大型语言模型(LLMs)深度融入人类生活,并日益影响决策过程,评估其是否以及多大程度上展现出主观偏好、观点与信念变得至关重要。这些倾向可能源于模型内部的偏见,进而塑造其行为,影响其向用户提供的建议与推荐,并可能强化某些特定观点。本文介绍了偏好、观点与信念调查(POBs),这是一个旨在评估LLMs在社会、文化、伦理及个人领域主观倾向的基准。我们运用该基准对领先的开源与闭源LLMs进行了评估,衡量了诸如可靠性、中立性与一致性等期望属性。此外,我们还探讨了通过推理与自我反思机制增加测试时计算量对这些指标的影响。尽管这些机制在其他任务中有效,但我们的结果显示,在本研究领域中,它们仅带来有限的提升。进一步地,我们发现较新的模型版本在一致性上有所下降,且对特定观点的偏见有所增加,揭示了一个盲点及令人担忧的趋势。POBS详情请访问:https://ibm.github.io/POBS
我們引入了Frankentexts,這是一種由大型語言模型(LLMs)在極端約束下生成的長篇敘事,要求大部分詞彙(例如90%)必須逐字複製自人類寫作。這項任務對可控生成提出了嚴峻挑戰,要求模型在滿足寫作提示的同時,整合不同的文本片段,並仍能產出連貫的敘事。為生成Frankentexts,我們指導模型通過選擇和組合人類撰寫的段落來起草,然後在保持用戶指定的複製比例下,迭代修訂草稿。我們從三個維度評估生成的Frankentexts:寫作質量、指令遵循度及可檢測性。Gemini-2.5-Pro在此任務中表現出人意料地好:81%的Frankentexts連貫且100%符合提示要求。值得注意的是,高達59%的此類輸出被如Pangram等檢測器誤判為人類撰寫,揭示了AI文本檢測器的局限性。人類評審者有時能通過Frankentexts中突兀的語氣轉變和段落間不一致的語法識別它們,尤其是在較長的生成文本中。除了作為一項具有挑戰性的生成任務,Frankentexts還促進了對構建有效檢測器以應對這一新的作者身份灰色地帶的討論,為混合作者身份檢測提供了訓練數據,並作為研究人機協作寫作過程的實驗平台。
與人類普遍目標(如無害且無幻覺)相一致的視覺語言模型(VLMs)已成為人類處理視覺任務的得力助手。然而,不同背景的人即使在相同情境下也會有不同的認知,因此他們對VLM助手可能抱有個性化的期望。這凸顯了將VLM助手與個性化的情境認知對齊以提供現實世界協助的迫切需求。為研究此問題,我們首先通過社會學中的角色集概念來簡化個體特徵描述。接著,我們提出評估個體行為的方法,以檢驗是否實現了個性化對齊。此外,我們構建了一個名為PCogAlignBench的基準測試,包含18,000個實例和20個具有不同角色集的個體。最後,我們提出了一個名為PCogAlign的框架,該框架構建了一個基於認知和行為的獎勵模型,用於實現個性化對齊。實驗結果和人類評估證明了PCogAlignBench的可靠性以及我們提出的PCogAlign的有效性。我們將在https://github.com/NLPGM/PCogAlign開源所構建的基準測試和代碼。
近期研究表明,在少量高品質數據集上對大型語言模型(LLM)進行監督式微調,能夠顯著提升其推理能力。然而,全參數微調(Full FT)雖然強大,卻存在計算成本高、易於過擬合及遭遇災難性遺忘等問題,特別是在數據有限的情況下。稀疏微調通過僅更新模型參數的一小部分,此前已取得顯著成功,在效率與效果之間提供了良好的平衡。但在LLM時代,由於難以識別真正對推理至關重要的參數,稀疏微調的應用有所滯後。本研究中,我們提出,在低秩近似後具有最大幅度的權重是微調的關鍵權重,我們稱之為主權重。令人驚訝的是,基於幅度的稀疏微調作為LLM微調的基線表現不佳,但在秩降低後卻變得極為有效。這些洞見啟發了我們的方法:低秩引導的稀疏微調(LIFT)。LIFT在整個訓練過程中僅更新前5%的主權重,並在推理任務上持續超越Full FT的表現,同時保持與流行的參數高效微調方法相當的記憶體效率。除了在算術推理等目標領域展現出強勁性能外,與Full FT和LoRA相比,LIFT還保留了多達20%的源領域知識。我們的代碼已公開於:https://github.com/zihanghliu/LIFT。
透過視覺數據理解城市社會經濟狀況,對於可持續城市發展與政策規劃而言,是一項既具挑戰性又至關重要的任務。本研究介紹了CityLens,這是一個全面的基準測試,旨在評估大型語言視覺模型(LLVMs)從衛星和街景圖像中預測社會經濟指標的能力。我們構建了一個多模態數據集,涵蓋了全球分佈的17個城市,跨越經濟、教育、犯罪、交通、健康與環境六大關鍵領域,反映了城市生活的多面性。基於此數據集,我們定義了11項預測任務,並採用三種評估範式:直接指標預測、標準化指標估計及基於特徵的回歸分析。我們對17種最先進的LLVMs在這些任務上進行了基準測試。結果顯示,儘管LLVMs展現出有前景的感知與推理能力,但在預測城市社會經濟指標方面仍存在侷限。CityLens提供了一個統一框架,用於診斷這些侷限並指導未來利用LLVMs理解和預測城市社會經濟模式的研究方向。我們的代碼與數據集已通過https://github.com/tsinghua-fib-lab/CityLens開源。
本文探讨了在大规模多语言持续预训练实践中的一个关键设计决策——平行数据的纳入。具体而言,我们研究了双语翻译数据对Llama3系列模型适应500种语言的大规模多语言调整的影响。为此,我们构建了MaLA双语翻译语料库,包含超过2,500种语言对的数据。随后,我们开发了EMMA-500 Llama 3套件,包含四个大规模多语言模型——这些模型从Llama3系列基础模型出发,通过多达6710亿个标记的多样化数据混合进行持续预训练——并探索了在包含或不包含双语翻译数据的情况下进行持续预训练的效果。通过对7项任务和12个基准的全面评估,我们发现双语数据往往能增强语言迁移和性能表现,尤其是对于低资源语言。我们开源了MaLA语料库、EMMA-500 Llama 3套件相关资源、代码及模型生成物。
從神經信號解碼連續語言仍是神經科學與人工智能交叉領域中的一項重大挑戰。我們提出了Neuro2Semantic,這是一種新穎的框架,能夠從顱內腦電圖(iEEG)記錄中重建感知語言的語義內容。我們的方法分為兩個階段:首先,基於LSTM的適配器將神經信號與預訓練的文本嵌入對齊;其次,校正模塊直接從這些對齊的嵌入生成連續、自然的文本。這種靈活的方法克服了以往解碼方法的限制,實現了無約束的文本生成。Neuro2Semantic僅需30分鐘的神經數據即可展現出強大的性能,在低數據設置下超越了近期的一種最先進方法。這些結果凸顯了其在腦機接口和神經解碼技術中實際應用的潛力。
雙耳渲染旨在基於單聲道音頻以及說話者與聽者的位置,合成模擬自然聽覺的雙耳音頻。儘管已有眾多方法被提出以解決此問題,但這些方法在渲染質量和可流式推理方面仍面臨挑戰。要合成與真實錄音難以區分的高質量雙耳音頻,需精確建模雙耳線索、房間混響及環境音。此外,實際應用還要求具備流式推理能力。為應對這些挑戰,我們提出了一種基於流匹配的流式雙耳語音合成框架,名為BinauralFlow。我們將雙耳渲染視為生成問題而非回歸問題,並設計了一種條件流匹配模型以渲染高質量音頻。進一步地,我們設計了一種因果U-Net架構,該架構僅基於過去信息來估計當前音頻幀,從而為流式推理量身定制生成模型。最後,我們引入了一種連續推理管道,結合了流式STFT/ISTFT操作、緩衝區庫、中點求解器及早期跳過計劃,以提升渲染連續性和速度。定量與定性評估均顯示,我們的方法在性能上超越了當前最先進的技術。一項感知研究進一步揭示,我們的模型與真實錄音幾乎難以區分,混淆率達42%。
儘管R1類模型在推理和規劃方面取得了進展,大型語言模型(LLMs)在需要精確計算、符號操作、優化和算法推理的任務上仍然面臨挑戰,這些任務中文本推理缺乏代碼執行的嚴謹性。一個關鍵挑戰是讓LLMs能夠決定何時使用文本推理,何時生成代碼。雖然OpenAI訓練模型在需要時調用代碼解釋器,但公開研究缺乏如何對齊預訓練的LLMs以有效利用代碼並在多樣化任務中泛化的指導。我們提出了R1-Code-Interpreter,這是一個僅限文本的LLM的擴展,通過多輪監督微調(SFT)和強化學習(RL)訓練,以在逐步推理過程中自主生成多個代碼查詢。我們策劃了144個推理和規劃任務(107個用於訓練,37個用於測試),每個任務包含超過200個多樣化的問題。我們使用各種SFT和RL策略微調Qwen-2.5模型(3B/7B/14B),研究不同的答案格式、推理與非推理模型、冷啟動與熱啟動、GRPO與PPO,以及掩碼與非掩碼的代碼輸出。與之前在狹窄領域的RL工作不同,我們發現由於任務多樣性高和代碼執行成本高,代碼解釋器訓練顯著更難,這凸顯了SFT階段的關鍵作用。我們的最終模型R1-CI-14B在37個測試任務上的平均準確率從44.0%提高到64.1%,超過了GPT-4o(僅文本:58.6%),並接近使用代碼解釋器的GPT-4o(70.9%),通過代碼生成展現了新興的自檢行為。數據集、代碼和模型可在https://github.com/yongchao98/R1-Code-Interpreter和https://huggingface.co/yongchao98獲取。
多模態大型語言模型(MLLMs)在視覺問答等任務上表現出色,但其推理過程更多依賴於記憶中的世界知識還是輸入圖像中的視覺信息,仍不明確。為探究此問題,我們引入了Visual CounterFact,這是一個包含視覺真實反事實的新數據集,它將世界知識先驗(例如,紅色的草莓)與視覺輸入(例如,藍色的草莓)直接對立。利用Visual CounterFact,我們發現模型預測最初反映的是記憶中的先驗,但在中後期層次轉向視覺證據。這一動態揭示了兩種模態之間的競爭,最終在評估過程中視覺輸入壓倒了先驗。為控制此行為,我們提出了「像素對抗先驗」(PvP)引導向量,這是一種通過激活層級干預來控制模型輸出偏向世界知識或視覺輸入的機制。平均而言,PvP成功將92.5%的顏色預測和74.6%的大小預測從先驗轉向反事實。這些發現共同為解釋和控制多模態模型中的事實行為提供了新工具。
获取具有高度一致性的大规模情感语音数据仍然是语音合成领域的一大挑战。本文介绍了MIKU-PAL,一种全自动的多模态流程,用于从未标记的视频数据中提取高一致性的情感语音。通过利用面部检测与追踪算法,我们开发了一套基于多模态大语言模型(MLLM)的自动情感分析系统。实验结果表明,MIKU-PAL能够达到人类水平的准确度(在MELD数据集上为68.5%)及更优的一致性(Fleiss kappa分数为0.93),同时成本远低于人工标注且速度更快。借助MIKU-PAL提供的高质量、灵活且一致的标注,我们能够标注多达26种细粒度语音情感类别,经人工评估其合理性评分达到83%。基于此系统,我们进一步发布了一个细粒度情感语音数据集MIKU-EmoBench(131.2小时),作为情感文本转语音及视觉语音克隆的新基准。
本研究探討了無源域適應(Source-Free Domain Adaptation, SFDA)問題,即在無法取得源域數據的情況下,使模型適應目標域。為提升性能,我們引入了一種新的數據增強技術——混洗拼貼混合(Shuffle PatchMix, SPM),以及一種新穎的重新加權策略。SPM通過混洗並融合圖像塊來生成多樣且具挑戰性的增強數據,而重新加權策略則優先考慮可靠的偽標籤,以減輕標籤噪聲的影響。這些技術在如PACS等較小數據集上尤為有效,因為這些數據集更容易出現過擬合和偽標籤噪聲問題。我們在三大基準測試——PACS、VisDA-C和DomainNet-126上取得了領先的成果。特別是在PACS數據集上,單目標和多目標設置下的準確率分別提升了7.3%(從79.4%到86.7%)和7.2%,而在DomainNet-126和VisDA-C上則分別獲得了2.8%和0.7%的提升。這種結合先進數據增強與穩健偽標籤重新加權的方法,為SFDA設立了新的基準。相關代碼已公開於:https://github.com/PrasannaPulakurthi/SPM。
高效編譯量子操作仍是擴展量子計算能力的主要瓶頸。當今最先進的方法通過結合搜索算法與基於梯度的參數優化來實現低編譯誤差,但這些方法耗時長且需要多次調用量子硬件或昂貴的經典模擬,使其擴展性受到限制。近年來,機器學習模型作為替代方案出現,儘管目前它們僅限於離散門集。本文介紹了一種多模態去噪擴散模型,該模型能同時生成電路結構及其連續參數,以編譯目標酉矩陣。它利用兩個獨立的擴散過程,一個用於離散門選擇,另一個用於參數預測。我們在不同實驗中對該模型進行基準測試,分析該方法在不同量子比特數量、電路深度及參數化門比例下的準確性。最後,通過利用其快速生成電路的特性,我們為特定操作創建了大型電路數據集,並利用這些數據集提取有價值的啟發式信息,以幫助我們發現量子電路合成的新見解。