每日精選AI研究論文及翻譯
學術演講視頻已成為研究交流的重要媒介,然而其製作過程仍高度耗時,通常需要數小時的幻燈片設計、錄製和剪輯,才能完成一段僅2至10分鐘的視頻。與自然視頻不同,演講視頻的生成面臨獨特的挑戰:研究論文作為輸入,密集的多模態信息(文本、圖表、表格),以及需要協調多個對齊的通道,如幻燈片、字幕、語音和演講者。為應對這些挑戰,我們引入了PaperTalker,這是首個包含101篇研究論文及其作者創建的演講視頻、幻燈片和演講者元數據的基準數據集。我們進一步設計了四個定制的評估指標——元相似度、PresentArena、PresentQuiz和IP記憶——來衡量視頻如何向觀眾傳達論文信息。基於此基礎,我們提出了PaperTalker,這是首個用於學術演講視頻生成的多智能體框架。它通過新穎的樹搜索視覺選擇、光標定位、字幕生成、語音合成和頭像渲染,將幻燈片生成與有效的佈局優化相結合,同時並行化幻燈片級別的生成以提高效率。在Paper2Video上的實驗表明,我們的方法生成的演講視頻比現有基線更忠實且信息豐富,為自動化和即用型學術視頻生成邁出了實用的一步。我們的數據集、智能體和代碼可在https://github.com/showlab/Paper2Video獲取。
大型语言模型(LLM)应用,如智能体和领域特定推理,日益依赖于上下文适应——通过指令、策略或证据修改输入,而非权重更新。先前的方法提升了可用性,但常受简洁性偏差影响,即为了简洁摘要而舍弃领域洞察,以及上下文崩塌问题,即迭代重写随时间侵蚀细节。基于动态速查表引入的自适应记忆,我们提出了ACE(智能体上下文工程),该框架将上下文视为不断演变的剧本,通过生成、反思和整理的模块化过程积累、精炼和组织策略。ACE通过结构化、增量式更新防止崩塌,保留详细知识并适应长上下文模型。在智能体和领域特定基准测试中,ACE优化了离线(如系统提示)和在线(如智能体记忆)上下文,始终优于强基线:智能体任务提升10.6%,金融领域提升8.6%,同时显著减少适应延迟和部署成本。值得注意的是,ACE无需标注监督即可有效适应,而是利用自然执行反馈。在AppWorld排行榜上,ACE在整体平均分上与顶级生产级智能体持平,并在更具挑战性的测试挑战部分超越之,尽管使用的是较小的开源模型。这些结果表明,全面、不断演变的上下文能够实现可扩展、高效且自我改进的LLM系统,且开销低。
视频理解代表了计算机视觉领域最具挑战性的前沿,要求模型能够推理复杂的时空关系、长期依赖以及多模态证据。近期,视频-大型多模态模型(Video-LMMs)的出现,通过将视觉编码器与强大的基于解码器的语言模型相结合,在视频理解任务中展现了卓越的能力。然而,将这些模型从基础感知系统转变为复杂推理引擎的关键阶段——训练后阶段,在现有文献中仍显得零散。本综述首次全面审视了Video-LMMs的训练后方法,涵盖了三大支柱:带有思维链的监督微调(SFT)、基于可验证目标的强化学习(RL),以及通过增强推理计算实现的测试时扩展(TTS)。我们提出了一种结构化分类法,明确了这些技术的角色、相互联系及针对视频的特定调整,解决了诸如时间定位、时空基础、长视频效率和多模态证据整合等独特挑战。通过对代表性方法的系统分析,我们综合了关键设计原则、见解和评估协议,同时识别了奖励设计、可扩展性和成本性能优化中的关键开放挑战。我们进一步整理了必要的基准、数据集和指标,以促进对训练后效果的严格评估。本综述旨在为研究人员和从业者提供一个统一的框架,以推动Video-LMM能力的进步。更多资源及更新维护于:https://github.com/yunlong10/Awesome-Video-LMM-Post-Training。
樹狀搜索已成為大型語言模型(LLMs)在測試時進行推理的代表性框架,例如「思維樹」和蒙特卡羅樹搜索等方法,這些方法探索了多條推理路徑。然而,提供即時且可靠的中間推理步驟質量定量評估仍然困難,且廣泛的路徑探索在計算上成本高昂。為解決這一問題,我們提出了基於互信息的樹狀搜索(MITS),這是一個利用信息論原理指導推理的新框架。MITS引入了一種基於點互信息(PMI)的有效評分函數,該函數能夠實現推理路徑的逐步評估,並通過束搜索擴展搜索樹,無需昂貴的前瞻模擬,在保持計算效率的同時實現了卓越的推理性能。該框架還配備了一種基於熵的動態採樣策略,能夠自適應地將計算資源分配給最有益探索的不確定推理步驟。對於最終預測,MITS採用了一種加權投票方案,將PMI分數與預測共識相結合。通過在多樣化的推理基準上進行全面實驗,MITS始終超越基準方法,為LLM推理建立了一個原則性且高效的框架。
近期视频生成模型虽能产出流畅且视觉吸引力强的片段,但在合成具有连贯因果链的复杂动态场景时仍显不足。准确建模随时间推移的视觉结果与状态转换,仍是核心挑战。相比之下,大型语言及多模态模型(如GPT-4o)展现出强大的视觉状态推理与未来预测能力。为融合这些优势,我们提出了VChain,一种新颖的推理时视觉思维链框架,它将多模态模型中的视觉推理信号注入视频生成过程。具体而言,VChain包含一条专用管道,利用大型多模态模型生成一组稀疏的关键帧作为快照,进而仅在这些关键时刻指导预训练视频生成器的稀疏推理时微调。我们的方法调优高效,引入额外开销极小,并避免了密集监督。在复杂多步骤场景上的大量实验表明,VChain显著提升了生成视频的质量。
針對視覺模態的越獄攻擊通常依賴於難以察覺的對抗性擾動,而對文本模態的攻擊則普遍被認為需要可見的修改(例如,非語義後綴)。在本文中,我們引入了一種利用一類稱為變體選擇器的Unicode字符實現的隱形越獄技術。通過將不可見的變體選擇器附加到惡意問題上,越獄提示在屏幕上與原始惡意問題視覺上完全相同,但其分詞過程卻被“秘密”改變。我們提出了一種搜索鏈管道來生成此類對抗性後綴,以誘導有害回應。實驗表明,我們的隱形越獄技術在對抗四種對齊的大型語言模型時達到了高攻擊成功率,並且能推廣到提示注入攻擊,所有這些都不會在書面提示中產生任何可見的修改。我們的代碼可在https://github.com/sail-sg/imperceptible-jailbreaks獲取。
近期在大規模語言模型領域的進展表明,混合架構——將自注意力機制與結構化狀態空間模型(如Mamba)相結合——能夠在建模質量與計算效率之間達成引人注目的平衡,特別是在長上下文任務中。儘管這些混合模型展現出令人鼓舞的性能,但關於混合策略的系統性比較以及其有效性背後關鍵因素的分析尚未清晰地與學術界分享。在本研究中,我們基於層間(順序)或層內(並行)融合,對混合架構進行了全面評估。我們從多個角度評估這些設計:語言建模性能、長上下文能力、擴展分析以及訓練和推理效率。通過探究其計算原語的核心特性,我們識別出每種混合策略中最關鍵的要素,並進一步為兩種混合模型提出了最優設計方案。我們的綜合分析為開發混合語言模型提供了實用指導和寶貴見解,促進了架構配置的優化。
儘管在模型和數據集規模擴展下的最優超參數遷移方面已取得近期進展,但尚未建立統一的解釋性原則。利用Scion優化器,我們發現模型與數據集大小之間的最優聯合擴展受單一不變量支配:輸出層的算子範數。在參數量高達13億、訓練數據量達1380億個token的模型中,最優學習率與批量大小組合(η*, B*)始終保持相同的算子範數值——我們稱此現象為範數遷移。這一恆定範數條件是必要但不充分的:對於每個數據集大小,雖然多個(η, B)能達到最優範數,但僅有唯一的(η*, B*)能實現最佳損失。作為充分條件,我們首次測量了Scion中(η*, B*)隨數據集大小的擴展規律,發現其擴展規則與Adam優化器一致。逐層組調整學習率也能提升模型性能,其中輸出層最為敏感,而隱藏層則受益於較低的學習率。我們提供了基於範數指導的最優擴展實踐見解,並發布了我們的分布式Scion(Disco)實現及來自兩千多次運行的日誌,以支持大規模語言模型訓練動態的研究。
Transformer架構已成為大型語言模型(LLMs)的實際標準,在語言理解與生成方面展現出卓越的能力。然而,其在對話式人工智慧中的應用,本質上受到其無狀態特性及與序列長度L相關的二次方計算複雜度(O(L^2))的限制。現有模型通過在每一輪對話中重新處理不斷擴展的對話歷史來模擬記憶,這導致在長對話中產生高昂的成本和延遲。本文介紹了反應式Transformer(RxT),這是一種新穎的架構,旨在通過從數據驅動轉向事件驅動範式來克服這些限制。RxT將每一輪對話作為即時離散事件處理,並在一個集成的、固定大小的短期記憶(STM)系統中維護上下文。該架構具有一個獨特的操作週期,其中生成器-解碼器基於當前查詢和先前的記憶狀態生成回應,隨後記憶編碼器和專用的記憶注意力網絡異步更新STM,以反映完整互動的表徵。這一設計從根本上改變了擴展動態,將對話的總用戶面成本從與互動次數N相關的二次方(O(N^2 cdot T))降低到線性(O(N cdot T))。通過將回應生成與記憶更新解耦,RxT實現了低延遲,支持真正即時、有狀態且經濟可行的長篇對話。我們在合成數據上進行了一系列概念驗證實驗,驗證了我們的架構,展示了與同等規模的無狀態基線模型相比,其優越的性能和恆定時間的推理延遲。
提升大型語言模型(LLM)推理能力的主流範式,主要圍繞著對高質量、推理密集型數據進行後續訓練。儘管新興文獻表明,推理數據在中期訓練階段也日益被納入——這一做法相對更具專有性且較少公開描述——但此類數據在預訓練中的作用仍不明確。特別是由於大多數前沿模型的預訓練語料庫不透明,科學文獻中相對較少報告在預訓練和/或後續訓練的不同階段引入推理數據的效果。這引發了幾個重要問題:在預訓練早期加入推理數據是否比在後續訓練中引入更好?早期納入是否會導致過擬合並損害泛化能力,還是能建立後續微調無法恢復的持久基礎?我們首次系統地研究了推理數據——在規模、多樣性和質量上變化——在不同訓練階段引入時對LLM性能的影響。我們發現,將推理數據前置於預訓練階段至關重要(平均提升19%),這建立了後續階段SFT即使使用更多數據也無法完全複製的基礎能力。我們揭示了一個數據分配的最優不對稱原則:預訓練最能從推理模式的廣泛多樣性中受益(平均提升11%),而SFT對數據質量更為敏感(平均提升15%)。我們展示了高質量預訓練數據具有潛在效應,僅在SFT後被激活,且盲目擴展SFT數據可能有害,會沖淡早期推理注入的益處。我們的結果挑戰了語言建模與推理的傳統分離,為在整個訓練管道中戰略性地分配數據以構建更強大模型提供了原則性指導。
尽管现代视觉生成模型在创作美观的自然图像方面表现出色,但在生成或编辑如图表、图解和数学图形等结构化视觉内容时却面临挑战,这些任务需要构图规划、文本渲染以及多模态推理以确保事实准确性。为此,我们首次对这一领域进行了全面系统的研究,涵盖了数据构建、模型训练及评估基准的建立。首先,我们构建了一个包含130万对高质量结构化图像的大规模数据集,这些图像源自可执行的绘图程序,并通过链式思维推理注释进行了增强。在此基础上,我们训练了一个统一模型,该模型通过轻量级连接器将视觉语言模型(VLM)与FLUX.1 Kontext集成,以增强多模态理解能力。采用三阶段训练课程,逐步实现特征对齐、知识注入及推理增强的生成,并在推理时通过外部推理器进一步提升性能。最后,我们引入了StructBench,这是一个包含超过1700个挑战性实例的生成与编辑新基准,并配套了StructScore评估指标,该指标采用多轮问答协议来评估细粒度的事实准确性。对15个模型的评估显示,即便是领先的闭源系统也远未达到令人满意的水平。我们的模型在编辑性能上表现强劲,推理时的推理能力在不同架构上均带来了持续提升。通过发布数据集、模型及基准,我们旨在推动结构化视觉内容统一多模态基础的发展。
指令微調在提升大型語言模型(LLMs)解決任務的能力方面發揮著至關重要的作用,增強了其在多種任務上生成有用回應的實用性。然而,先前的研究表明,這些模型對指令表述的細微變化極為敏感。本文探討了在指令微調數據中引入擾動是否能增強LLMs對噪聲指令的抵抗能力。我們重點研究了帶有擾動的指令微調,如移除停用詞或打亂詞序,如何影響LLMs在廣泛使用的基準測試(MMLU、BBH、GSM8K)原始版本及擾動版本上的表現。我們進一步評估了學習動態及模型行為的潛在變化。令人驚訝的是,我們的結果表明,在某些情況下,對擾動指令進行指令微調能夠提升下游任務的表現。這些發現強調了在指令微調中包含擾動指令的重要性,這可以使LLMs對用戶輸入的噪聲更具韌性。
語音對話系統通常依賴於級聯的處理流程,這些流程包括語音的轉錄、處理和再合成。雖然這種設計有效,但它捨棄了副語言線索並限制了表達力。近期的端到端方法降低了延遲並更好地保留了這些線索,但仍依賴於文本中介,形成了根本性的瓶頸。我們提出了MOSS-Speech,這是一個真正的語音到語音大型語言模型,它能夠直接理解並生成語音,無需依賴文本指導。我們的方法結合了基於模態的層分離架構與凍結預訓練策略,既保留了預訓練文本大型語言模型的推理能力和知識,又增添了原生的語音處理能力。實驗表明,我們的模型在語音問答任務中達到了最先進的水平,並在語音到語音性能上與現有的文本指導系統相當,同時仍保持了競爭力的文本處理性能。通過縮小文本指導與直接語音生成之間的差距,我們的工作為表達力強且高效的端到端語音互動建立了新的範式。
強化學習應用於大型語言模型(LLMs)進行推理任務時,常因對提示詞的固定且均勻響應採樣而導致梯度估計不穩定,成為性能瓶頸。先前的研究如GVM-RAFT通過動態分配每個提示詞的推理預算,在預算約束下最小化隨機梯度方差來解決這一問題。受此啟發,我們提出了Reinforce-Ada,這是一種用於LLMs在線RL後訓練的自適應採樣框架,它持續將採樣努力重新分配給具有最大不確定性或學習潛力的提示詞。與傳統的兩階段分配方法不同,Reinforce-Ada在線連續淘汰過程中交織進行估計與採樣,並在收集到足夠信號時自動停止對某提示詞的採樣。為穩定更新,我們構建了具有強制獎勵多樣性的固定大小組,並利用自適應採樣階段聚合的全局統計數據計算優勢基線。多種模型架構和推理基準上的實證結果表明,與GRPO相比,Reinforce-Ada加速了收斂並提升了最終性能,尤其是在使用平衡採樣變體時。我們的工作強調了方差感知、自適應數據策劃在實現具備推理能力LLMs高效可靠強化學習中的核心作用。代碼可在https://github.com/RLHFlow/Reinforce-Ada獲取。
大型語言模型(LLMs)與人類價值觀的對齊日益依賴於使用其他LLMs作為自動評判者,或稱“自動評分器”。然而,其可靠性受到一個根本性問題的限制:這些模型是在離散偏好標籤上進行訓練的,這迫使單一“真實答案”應用於往往是主觀、模糊或細微的任務上。我們主張,一個可靠的自動評分器必須學會模擬目標人群所定義的偏好全分佈。本文中,我們提出了一個通用框架,用於將概率性自動評分器校準至任何給定的偏好分佈。我們形式化了這一問題,並針對不同數據條件提出了兩種學習方法:1)針對密集、概率性標籤的直接監督微調,以及2)針對稀疏、二進制標籤的強化學習方法。我們的實證結果表明,以分佈匹配為目標對自動評分器進行微調,能夠使口頭表達的概率預測更好地與目標偏好分佈對齊,同時改善校準度並顯著降低位置偏差,且在所有客觀任務上保持性能不變。
強化學習在大型語言模型推理的近期進展中佔據核心地位,但大多數算法依賴於需要每次更新時進行全新滾動的策略訓練,這限制了效率和可擴展性。異步強化學習系統通過將滾動生成與訓練解耦來緩解這一問題,但其有效性取決於對滾動數據中大量陳舊性的容忍,在這種情況下,現有方法要么性能下降,要么完全失效。我們重新審視這一挑戰,並發現了一個繁榮後崩潰的現象:如果利用得當,陳舊數據可以與策略數據一樣具有信息量。基於這一洞察,我們引入了M2PO(第二矩信任策略優化),它通過約束重要性權重的第二矩來僅抑制極端異常值,同時保留信息性更新。值得注意的是,M2PO在高陳舊性下顯著減少了被裁剪的token比例(從訓練中的1.22%降至0.06%),精確地屏蔽了高方差token,同時保持了優化的穩定性。在六個模型(從1.7B到32B)和八個基準上的廣泛評估表明,即使數據陳舊至少256次模型更新,M2PO也能提供穩定的離策略訓練,並與策略性能相匹配。
近期研究表明,大型語言模型(LLMs)不僅能通過顯式的思維鏈步驟進行離散推理,受限於自然語言的邊界,它們還能在潛在空間中進行連續推理,這使得每一步都能承載更豐富的信息,從而提升符號效率。儘管如此,潛在推理仍面臨兩大挑戰,特別是在無需訓練的設定下:1)純粹的潛在推理通過維持多條隱含路徑擴大了搜索分佈,這分散了概率質量,引入了噪聲,並阻礙了向單一高置信度解的收斂,從而影響了準確性;2)即便沒有顯式文本,過度思考現象依然存在,浪費符號並降低效率。為解決這些問題,我們引入了SwiReasoning,這是一個無需訓練的LLM推理框架,具備兩大創新點:1)SwiReasoning根據下一符號分佈的熵趨勢估計的塊級置信度,動態切換於顯式與潛在推理之間,以平衡探索與利用,促進及時收斂。2)通過限制思維塊切換的最大次數,SwiReasoning有效抑制了過度思考,並在不同難度的問題上提升了符號效率。在廣泛使用的數學及STEM基準測試中,SwiReasoning在不同模型家族和規模的推理LLMs上,平均準確率持續提升了1.5%-2.8%。此外,在預算受限的情況下,SwiReasoning將平均符號效率提升了56%-79%,且隨著預算的緊縮,提升幅度更大。
近期,大型生成模型在图像编辑和上下文图像生成方面取得了显著进展,然而在确保物理一致性方面仍存在关键缺口,即编辑后的物体必须保持连贯性。这一能力对于世界模拟相关任务尤为重要。本文提出ChronoEdit框架,将图像编辑重新定义为视频生成问题。首先,ChronoEdit将输入图像和编辑后的图像视为视频的首尾帧,从而能够利用大规模预训练的视频生成模型,这些模型不仅捕捉物体外观,还通过学习到的时间一致性隐含了运动和交互的物理规律。其次,ChronoEdit引入了一个时间推理阶段,在推理时显式执行编辑。在此设置下,目标帧与推理标记共同去噪,以构想一个合理的编辑轨迹,将解空间约束在物理可行的变换范围内。推理标记在几步后被丢弃,以避免渲染完整视频的高计算成本。为验证ChronoEdit,我们引入了PBench-Edit,这是一个针对需要物理一致性的上下文而设计的图像-提示对新基准,并展示了ChronoEdit在视觉保真度和物理合理性上均超越了现有最先进的基线。ChronoEdit的14B和2B变体的代码和模型将在项目页面上发布:https://research.nvidia.com/labs/toronto-ai/chronoedit。
大型語言模型(LLMs)越來越多地通過長鏈式思維解決複雜的推理任務,但其僅向前進行的自回歸生成過程具有脆弱性;早期的詞元錯誤可能層層累積,這凸顯了自我反思機制的必要性。然而,現有的自我反思要么對完整草稿進行修訂,要么通過昂貴的訓練學習自我校正,這兩種方式本質上都是被動且低效的。為此,我們提出了測試時自我反思生成(SRGen),這是一個輕量級的測試時框架,在生成不確定點之前進行反思。在詞元生成過程中,SRGen利用動態熵閾值來識別高不確定性詞元。對於每個識別出的詞元,它訓練一個特定的校正向量,充分利用已生成的上下文進行自我反思生成,以校正詞元概率分佈。通過回顧性分析部分輸出,這種自我反思能夠做出更可信的決策,從而顯著降低在高不確定點出錯的概率。在具有挑戰性的數學推理基準測試和多樣化的LLMs上進行評估,SRGen能夠持續增強模型推理能力:單次通過質量的提升也轉化為更強的自一致性投票。特別是在AIME2024上使用DeepSeek-R1-Distill-Qwen-7B時,SRGen在Pass@1上實現了+12.0%的絕對提升,在Cons@5上實現了+13.3%的絕對提升。此外,我們的研究將SRGen定位為一種即插即用的方法,將反思整合到生成過程中,以實現可靠的LLM推理,在有限的開銷下實現一致的增益,並與其他訓練時(如RLHF)和測試時(如SLOT)技術具有廣泛的兼容性。
计算机使用代理(CUAs)需在多样且不断变化的应用与环境中规划任务流程,然而学习过程因目标应用领域内大规模、高质量训练数据的匮乏而受阻。现有数据集多局限于特定领域、静态且标注成本高昂,而当前合成数据生成方法往往产生过于简化或与任务不符的演示。为克服这些局限,我们提出了“观察与学习”(Watch & Learn, W&L)框架,该框架能够将互联网上易得的人类演示视频大规模转化为可执行的用户界面(UI)轨迹。不同于直接生成轨迹或依赖临时推理启发式方法,我们将问题转化为逆动力学目标:从连续屏幕状态预测用户行为。这一表述减少了人工工程需求,更易于学习,并能更稳健地跨应用泛化。具体而言,我们开发了一个包含任务感知视频检索的逆动力学标注流程,从原始网络视频中生成超过53,000条高质量轨迹,并证明这些轨迹无论是作为上下文内演示还是监督训练数据,均能有效提升CUAs性能。在具有挑战性的OSWorld基准测试中,利用W&L提取的UI轨迹持续增强了通用框架及最先进框架的上下文内表现,并在监督训练下为开源模型带来了更显著的性能提升。这些成果凸显了网络规模的人类演示视频作为推动CUAs迈向实际部署的实用且可扩展基础的重要性。
在軟件開發領域,採用基於人工智能的代碼補全工具已顯著增加,然而這些系統產生的用戶交互數據仍被大型企業所專有。這為學術界設置了障礙,因為研究人員往往需要開發專用平台來進行人機交互研究,使得可重複研究和大規模數據分析難以實現。本研究中,我們推出了Code4MeV2,這是一款面向研究的開源代碼補全插件,專為JetBrains集成開發環境設計,旨在解決這一限制。Code4MeV2採用客戶端-服務器架構,具備內聯代碼補全和上下文感知聊天助手功能。其核心貢獻在於一個模塊化且透明的數據收集框架,賦予研究人員對遙測和上下文收集的精細控制。Code4MeV2在代碼補全方面達到了與業界相當的性能,平均延遲為200毫秒。我們通過專家評估和八名參與者的用戶研究相結合的方式對工具進行了評估。來自研究人員和日常用戶的反饋均強調了其信息豐富性和實用性。我們誠邀社區採用並為此工具做出貢獻。更多關於該工具的信息,請訪問https://app.code4me.me。
设想憨豆先生踏入汤姆和杰瑞的世界——我们能否生成视频,让来自不同世界的角色自然互动?我们研究了文本到视频生成中的跨角色互动,其核心挑战在于保持每个角色的身份与行为特征的同时,实现跨情境的连贯互动。这一难题源于角色间可能从未共存,以及风格混搭常导致风格混淆,即写实角色显得卡通化,反之亦然。我们提出了一种框架,通过跨角色嵌入(Cross-Character Embedding, CCE)学习多模态源中的身份与行为逻辑,并利用跨角色增强(Cross-Character Augmentation, CCA)通过合成共存与混合风格数据丰富训练。这些技术共同作用,使得先前未曾共处的角色间能够自然互动,同时不失风格的真实性。在一项包含10个角色的卡通与实拍剧集精选基准测试中,实验结果显示在身份保持、互动质量及对风格混淆的鲁棒性方面均有显著提升,为生成式叙事开辟了新途径。更多成果与视频请访问我们的项目页面:https://tingtingliao.github.io/mimix/。
自然語言處理(NLP)的社會影響日益重要,社群越來越關注與「NLP促進社會公益」(NLP4SG)相關的倡議。事實上,近年來,ACL文集中近20%的論文都涉及聯合國永續發展目標所定義的社會公益主題(Adauto等,2023)。在本研究中,我們從作者和會議層面的視角來描繪NLP4SG的現狀,量化了ACL社群內外、核心ACL貢獻者與非ACL作者在處理社會公益議題上的工作比例。透過這種方法,我們發現了關於NLP4SG現狀的兩個令人驚訝的事實。首先,ACL作者在ACL以外的會議發表時,更傾向於從事與社會公益相關的研究。其次,絕大多數使用NLP技術來解決社會公益問題的出版物,都是由非ACL作者在ACL以外的會議上完成的。我們將討論這些發現對ACL社群在NLP4SG議程設定上的影響與考量。
大型語言模型(LLMs)在形式定理證明領域展現了顯著的潛力,然而其普遍性不足,且對問題陳述的微小變換表現脆弱。為解決這一限制,我們引入了一種新穎的數據增強流程,旨在從對稱性和難度兩個角度提升模型的魯棒性。從對稱性角度,我們提出了兩種互補方法:EvolAST,一種基於抽象語法樹(AST)的方法,針對語法對稱性生成語義等價的問題變體;以及EvolDomain,它利用LLMs跨越數學領域翻譯定理,以處理語義對稱性。從難度角度,我們提出了EvolDifficulty,該方法通過精心設計的進化指令引導LLMs生成具有更廣難度範圍的新定理。隨後,我們利用這些進化數據訓練了EvolProver,一個擁有70億參數的非推理定理證明器。EvolProver在FormalMATH-Lite上以53.8%的pass@32率創下了新的最優記錄(SOTA),超越了所有同等規模的模型,包括基於推理的模型。它還在MiniF2F-Test(69.8% pass@32)、Ineq-Comp-Seed(52.2% pass@32)和Ineq-Comp-Transformed(34.0% pass@32)上為非推理模型設立了新的SOTA記錄。消融研究進一步證實了我們的數據增強流程在多個基準測試中的有效性。
四维高斯溅射(4D Gaussian Splatting)作为一种动态场景表示的新范式,能够实现对复杂运动场景的实时渲染。然而,其面临的主要挑战在于存储开销,因为高保真重建需要数百万个高斯分布。尽管已有若干研究尝试减轻这一内存负担,但在压缩比或视觉质量方面仍存在局限。本研究提出了OMG4(优化的最小四维高斯溅射框架),该框架构建了一组紧凑的关键高斯分布,能够忠实表示四维高斯模型。我们的方法通过三个阶段逐步修剪高斯分布:(1)高斯采样,识别对重建保真度至关重要的基元;(2)高斯修剪,去除冗余;(3)高斯融合,合并具有相似特性的基元。此外,我们整合了隐式外观压缩,并将子向量量化(SVQ)推广至四维表示,在保持质量的同时进一步减少存储需求。在标准基准数据集上的大量实验表明,OMG4显著优于近期的最先进方法,模型尺寸减少超过60%,同时保持了重建质量。这些成果标志着OMG4在紧凑四维场景表示领域迈出了重要一步,为广泛应用开辟了新的可能性。我们的源代码可在https://minshirley.github.io/OMG4/获取。
大规模文本到图像的扩散模型已成为现代图像编辑的核心技术,然而仅凭文本提示无法为编辑过程提供足够的控制。其中两个特性尤为关键:解耦性,即改变某一属性时不会无意中影响其他属性;以及连续性控制,即能够平滑调整编辑的强度。我们提出了一种通过对文本嵌入进行令牌级操作来实现解耦与连续编辑的方法。编辑通过沿精心选择的方向操控嵌入向量来实施,这些方向控制着目标属性的强度。为了识别此类方向,我们采用了稀疏自编码器(Sparse Autoencoder, SAE),其稀疏潜在空间揭示了语义上孤立的维度。我们的方法直接在文本嵌入上操作,无需修改扩散过程,使其模型无关且广泛适用于多种图像合成框架。实验表明,该方法能够在多种属性和领域中实现直观高效的连续控制操作。
大型語言模型(LLMs)近期在視聽語音識別(AVSR)領域展現出強大潛力,但其高計算需求及對詞元粒度的敏感性,限制了其在資源受限環境中的實用性。詞元壓縮方法雖能降低推理成本,卻需預先固定壓縮率並產生單一固定長度輸出,無法在推理時靈活平衡信息密度與效率。嵌套表示學習(MRL)通過使單一模型能在多種詞元粒度下運作,實現了壓縮率的動態調整,從而解決了這一問題。然而,現有的基於MRL的方法在訓練時將各尺度獨立處理,限制了跨尺度的泛化能力、高壓縮下的魯棒性及可解釋性。為克服這些限制,我們提出了MoME(嵌套專家混合),這是一種新穎框架,將稀疏專家混合(MoE)整合到基於MRL的LLMs中,用於AVSR。MoME通過頂級路由和共享專家增強了固定的LLM,實現了跨尺度和模態的動態容量分配。共享路由器促進了跨粒度的一致性專家激活,使壓縮序列能受益於低壓縮下學習到的表示。在LRS2和LRS3上的實驗表明,MoME在AVSR、ASR和VSR任務中均達到了最先進的性能,同時顯著減少了參數需求並在噪聲下保持了魯棒性。MoME將MRL的適應性與MoE的效率相統一,為資源感知的語音識別提供了一個可擴展且可解釋的解決方案。
强化学习(Reinforcement Learning, RL)在提升大型语言模型(Large Language Models, LLMs)的推理能力方面已占据核心地位。然而,诸如群体相对策略优化(Group Relative Policy Optimization, GRPO)等在线策略算法在训练初期常面临困境:由低质量轨迹产生的噪声梯度导致更新不稳定及探索效率低下。为此,我们提出了慢快策略优化(Slow-Fast Policy Optimization, SFPO),这一简洁而高效的框架通过将每一步分解为三个阶段来应对上述局限:在同一批次内进行短而快的内部步骤轨迹、控制离策略漂移的重新定位机制,以及最终的慢速校正。这种“先定位后更新”的设计保持了目标函数与轨迹过程不变,使得SFPO能够无缝兼容现有的策略梯度流程。大量实验表明,SFPO在稳定性提升、轨迹减少及推理RL训练收敛加速方面表现一致。特别是在数学推理基准测试中,SFPO较GRPO平均高出2.80分。同时,在达到GRPO最佳准确率时,SFPO实现了最多减少4.93次轨迹及4.19倍的墙上时间缩短。
流暢的語音互動需要可靠且低延遲的用戶說話結束檢測。傳統的基於音頻靜音的端點檢測方法會增加數百毫秒的延遲,並且在用戶猶豫或遇到特定語言現象時容易失效。據我們所知,我們首次系統性地研究了泰語純文本的實時對話輪次結束(EOT)檢測。我們比較了緊湊型大語言模型(LLM)的零樣本和少樣本提示方法,以及輕量級變換器的監督微調方法。利用YODAS語料庫中的轉錄字幕和泰語特有的語言線索(如句末助詞),我們將EOT檢測建模為基於詞元邊界的二元決策。我們報告了準確性與延遲之間的明顯權衡,並提供了一個可公開使用的實現方案。這項工作建立了泰語的基準,並展示了經過微調的小型模型能夠提供近乎即時的EOT決策,適用於設備端代理。
儘管多語言自動語音識別(ASR)技術已取得進展,但語碼轉換(CS)——即日常對話中常見的語言混合現象——仍是一個嚴重未被充分探索的挑戰。本文介紹了HiKE:分層韓英語碼轉換基準,這是首個全球可訪問的韓英CS評估框架,旨在為多語言ASR模型提供精確的評估手段,並推動該領域的研究。所提出的框架不僅包含跨多種主題的高質量、自然CS數據,還提供了細緻的外來詞標籤及分層CS級別標籤方案(詞、短語和句子),這些共同促成了對模型處理各級別語碼轉換能力的系統性評估。通過對多種多語言ASR模型的評估及微調實驗,本文表明,雖然大多數多語言ASR模型最初在CS-ASR上表現不佳,但通過使用CS數據進行微調,可顯著提升此能力。HiKE將在https://github.com/ThetaOne-AI/HiKE上公開提供。
將自然語言問題轉換為SQL查詢(Text-to-SQL)使非專業用戶能夠與關聯式數據庫互動,這一直是數據自然語言介面的核心任務。儘管WikiSQL數據集在早期的NL2SQL研究中扮演了關鍵角色,但由於結構和註釋問題,包括大小寫敏感性不一致、數據類型不匹配、語法錯誤和未回答的問題,其使用率已下降。我們提出了LLMSQL,這是為LLM時代設計的WikiSQL系統性修訂和轉換版本。我們對這些錯誤進行了分類,並實施了自動化的清理和重新註釋方法。為了評估這些改進的影響,我們評估了多個大型語言模型(LLMs),包括Gemma 3、LLaMA 3.2、Mistral 7B、gpt-oss 20B、Phi-3.5 Mini、Qwen 2.5、OpenAI o4-mini、DeepSeek R1等。LLMSQL並非作為更新版本推出,而是作為一個LLM-ready的基準測試:與原始WikiSQL不同,後者專為從輸入中選擇標記的指針網絡模型設計,LLMSQL提供了乾淨的自然語言問題和完整的SQL查詢作為純文本,使現代自然語言到SQL模型的生成和評估變得直接。
基於擴散的大型語言模型(dLLMs)在訓練時被靈活地設計來模擬數據分佈中的極端依賴性;然而,在推理階段如何最佳利用這些信息仍是一個未解之題。在本研究中,我們揭示了這些模型的一個有趣特性:在文本數據上訓練的dLLMs隱含地學習了一組半自迴歸專家的混合體,其中不同的生成順序展現出不同的專業行為。我們指出,常見的固定推理時間調度做法,因未能利用這一潛在的集成,導致性能下降。為解決此問題,我們引入了HEX(隱藏半自迴歸專家用於測試時擴展),這是一種無需額外訓練的推理方法,它通過異構塊調度進行集成。通過對多樣化塊大小生成路徑進行多數表決,HEX穩健地避免了與任何單一固定調度相關的失敗模式。在如GSM8K等推理基準測試中,它將準確率提升至多3.56倍(從24.72%提升至88.10%),超越了Top-K邊際推理及如GRPO等專門微調方法,且無需額外訓練。HEX還在MATH基準測試中從16.40%提升至40.00%,在ARC-C的科學推理中從54.18%提升至87.80%,以及在TruthfulQA中從28.36%提升至57.46%,均取得了顯著進步。我們的成果為基於擴散的LLMs(dLLMs)的測試時擴展確立了新的範式,揭示了掩碼操作的順序在推理過程中對性能起著決定性作用。
随着大型语言模型(LLM)代理逐渐获得自我进化能力,通过现实世界互动来适应和优化其策略,其长期可靠性成为一个关键问题。我们识别出“对齐倾斜过程”(Alignment Tipping Process, ATP),这是自我进化LLM代理在部署后独有的关键风险。与训练期间的故障不同,ATP发生在持续互动驱使代理放弃训练期间建立的对齐约束,转而采用强化的、自利策略的情况下。我们通过两种互补范式对ATP进行了形式化分析:自利探索(Self-Interested Exploration),即重复的高奖励偏差导致个体行为漂移;以及模仿策略扩散(Imitative Strategy Diffusion),即偏差行为在多代理系统中传播。基于这些范式,我们构建了可控测试平台,并对Qwen3-8B和Llama-3.1-8B-Instruct进行了基准测试。实验表明,在自我进化下,对齐效益迅速减弱,最初对齐的模型逐渐趋向未对齐状态。在多代理环境中,成功的违规行为迅速扩散,导致集体失准。此外,当前基于强化学习的对齐方法仅能提供脆弱的防御,难以抵御对齐倾斜。这些发现共同表明,LLM代理的对齐并非静态属性,而是一种脆弱且动态的特性,在部署过程中易受反馈驱动的衰减影响。我们的数据和代码可在https://github.com/aiming-lab/ATP获取。
專家混合(Mixture-of-Experts, MoE)架構已成為擴展現代大型語言模型(LLMs)的關鍵,然而人們對其稀疏路由動態如何應對多語言數據的理解仍十分有限。在本研究中,我們利用平行多語言數據集分析了專家路由模式,並展示了高度可解釋的層級現象。我們發現,MoE模型在解碼器的早期和後期層中以語言特定的方式路由詞元,但在中間層表現出顯著的跨語言路由一致性,這與在密集LLMs中觀察到的參數共享趨勢相呼應。特別是,我們揭示了模型在特定語言中的表現與這些層中其詞元與英語路由的相似性之間存在明確且強烈的相關性。除了相關性之外,我們還探索了在推理時進行干預以誘導更高跨語言路由一致性的方法。我們提出了一種通過促進在英語中頻繁激活的中間層任務專家來引導路由的方法,並成功提升了多語言性能。這些1-2%的性能提升在兩個評估任務、三個模型和15種以上的語言中表現出驚人的一致性,尤其是考慮到這些簡單的干預措施覆蓋了經過廣泛訓練的頂尖LLMs的路由器。相比之下,在中間層之外進行干預或針對多語言專家的干預只會導致性能下降。總體而言,我們提出了多項發現,解釋了MoE如何處理非英語文本,並證明了模型的泛化能力受限於其在所有語言中利用語言通用專家的能力。
人類擅長在實踐中學習:我們在面對任務時逐步掌握解決之道。那麼,模型能否做到同樣的事情呢?我們提出了一種代理,它能夠構建一個針對特定任務的課程,稱為測試時課程(TTC-RL),並應用強化學習來持續訓練模型以完成其目標任務。測試時課程通過自動從大量可用訓練數據中選取與任務最相關的數據,避免了耗時的人工數據集整理工作。我們的實驗表明,在測試時課程上進行強化學習,能夠在多種評估和模型上持續提升模型在目標任務上的表現。值得注意的是,在具有挑戰性的數學和編程基準測試中,TTC-RL將Qwen3-8B的pass@1在AIME25上提高了約1.8倍,在CodeElo上提高了2.1倍。此外,我們發現,與初始模型相比,TTC-RL顯著提升了性能上限,將AIME25上的pass@8從40%提升至62%,CodeElo上的pass@8從28%提升至43%。我們的研究結果展示了測試時課程在將測試時擴展範式延伸至測試期間對數千次任務相關經驗進行持續訓練方面的潛力。
隨著系統趨向超級智能,一個自然的建模前提是智能體能夠在自身設計的各個方面進行自我改進。我們通過五軸分解和決策層來形式化這一過程,將激勵與學習行為分離,並單獨分析各軸。我們的核心成果揭示並引入了一種尖銳的效用-學習張力,即在自我修改系統中,以提高即時或預期性能為導向的效用驅動變更,也可能侵蝕可靠學習與泛化的統計前提條件。研究發現,當且僅當策略可達模型族具有均勻的容量限制時,無分佈保證得以保留;若容量可無限增長,基於效用理性的自我變更可能使原本可學習的任務變得不可學習。在實踐中常見的標準假設下,這些軸簡化為相同的容量準則,從而為安全的自我修改劃定單一邊界。跨多軸的數值實驗通過比較破壞性效用策略與我們提出的保留可學習性的雙門策略,驗證了理論的正確性。
大型语言模型(LLMs)倾向于生成在词汇、语义及风格上同质化的文本。这种现象带来了知识坍塌的风险,即随着时间的推移,同质化的LLMs会中介性地缩小可获取信息的范围。现有关于同质化的研究多局限于封闭式选择题设置或模糊的语义特征,且未考察跨时间与文化背景的趋势。为克服这一局限,我们提出了一种新的方法论,用以衡量认知多样性——即LLM输出中关于现实世界主张的变异程度,并以此开展了一项广泛的LLM知识坍塌实证研究。我们测试了27个LLMs、涵盖12个国家的155个主题,以及源自真实用户聊天的200种提示变体。针对研究中的主题,我们发现,尽管较新的模型倾向于生成更多样化的主张,但几乎所有模型的认知多样性均不及基本的网络搜索。研究还表明,模型规模对认知多样性有负面影响,而检索增强生成(RAG)则具有正面影响,尽管RAG带来的改善程度因文化背景而异。最后,与传统知识源(维基百科)相比,我们发现特定国家的主张更多地反映了英语而非当地语言,凸显了认知代表性上的差距。
我们推出Paris,这是首个完全通过去中心化计算预训练并公开发布的扩散模型。Paris证明了高质量文本到图像生成无需依赖中心化协调的基础设施即可实现。Paris开放供研究与商业用途。构建Paris需要我们从零开始实施分布式扩散训练框架。该模型由8个专家扩散模型(每个模型参数规模在1.29亿至6.05亿之间)组成,这些模型在完全隔离的环境中训练,无需梯度、参数或中间激活的同步。不同于要求跨数千个GPU进行同步梯度更新,我们将数据划分为语义连贯的集群,每个专家独立优化其子集,同时共同逼近完整分布。一个轻量级变压器路由器在推理时动态选择适当的专家,实现了与中心化协调基线相当的生成质量。消除同步需求使得训练能在异构硬件上进行,无需专用互连。实证验证表明,Paris的去中心化训练在保持生成质量的同时,移除了大规模扩散模型对专用GPU集群的需求。Paris仅使用了先前去中心化基线14分之一的训练数据和16分之一的计算资源,便达成了这一目标。
關於大型語言模型(LLMs)隱私風險的討論,過度集中於訓練數據的逐字記憶,而一系列更為直接且可擴展的隱私威脅卻未得到充分探討。本立場文件主張,LLM系統的隱私格局遠超訓練數據提取,涵蓋了數據收集實踐、推理時上下文洩露、自主代理能力,以及通過深度推理攻擊實現的監控民主化等風險。我們提出了一個全面的隱私風險分類體系,涵蓋LLM生命週期——從數據收集到部署——並通過案例研究展示當前隱私框架如何未能應對這些多方面的威脅。通過對過去十年(2016-2025)在頂級會議上發表的1,322篇AI/ML隱私論文的縱向分析,我們揭示出,儘管記憶問題在技術研究中受到過度關注,但最迫切的隱私危害卻存在於其他領域,當前技術方法在這些領域幾乎無能為力,可行的前進道路仍不明朗。我們呼籲研究界在處理LLM隱私問題時進行根本性轉變,超越當前技術解決方案的狹隘視角,採納跨學科方法,以應對這些新興威脅的社會技術本質。
基於LLM的多智能體系統在規劃、工具使用及角色協調方面表現卓越,然而其開放性與交互複雜性也使其易受越獄、提示注入及對抗性協作等威脅。現有的防禦策略主要分為兩類:(i)自我驗證,要求每個智能體在執行前預先過濾不安全指令;(ii)外部守護模組,負責監控行為。前者常因單一智能體缺乏足夠能力檢測跨智能體的不安全鏈條及委託引發的風險而表現不佳;後者則增加了系統開銷,並形成單點故障——一旦被攻破,整個系統的安全性便會崩潰,且增加更多守護者會加劇成本與複雜性。為解決這些挑戰,我們提出了AdvEvo-MARL,一種將安全性內化於任務智能體的共進化多智能體強化學習框架。AdvEvo-MARL不依賴外部守護,而是在對抗性學習環境中聯合優化攻擊者(合成不斷進化的越獄提示)與防禦者(訓練完成任務並抵抗攻擊的任務智能體)。為穩定學習並促進合作,我們引入了一個公共基線用於優勢估計:同一功能組內的智能體共享一個組級平均回報基線,從而實現更低方差的更新與更強的組內協調。在代表性攻擊場景中,AdvEvo-MARL始終將攻擊成功率(ASR)控制在20%以下,而基線方法最高可達38.33%,同時保持甚至提升了任務準確率(在推理任務上最高提升+3.67%)。這些結果表明,無需依賴額外的守護智能體或增加系統開銷,安全與效用即可共同提升。
隨著多模態大語言模型驅動的智能體在自主性和泛化能力上不斷進步,基於靜態數據集的評估已無法充分衡量其在動態環境和多樣任務中的真實能力。現有基於大語言模型的合成數據方法主要針對大語言模型的訓練與評估設計,因此無法直接應用於需要工具使用和交互能力的智能體任務。儘管近期研究探索了利用大語言模型自動生成智能體任務,但大多數工作仍局限於文本或圖像分析,未能系統地模擬網絡環境中的多步交互。為應對這些挑戰,我們提出了Graph2Eval,這是一個基於知識圖譜的框架,能夠自動生成多模態文檔理解任務和網絡交互任務,從而全面評估智能體的推理、協作和交互能力。在我們的方法中,從多源外部數據構建的知識圖譜作為任務空間,我們通過子圖採樣、任務模板和元路徑將語義關係轉化為結構化的多模態任務。基於節點可達性、大語言模型評分和相似性分析的多階段過濾管道被應用於保證生成任務的質量和可執行性。此外,Graph2Eval支持對多種類型智能體(單智能體、多智能體、網絡智能體)的端到端評估,並衡量其推理、協作和交互能力。我們通過Graph2Eval-Bench實例化了該框架,這是一個包含1,319個任務的精心策劃數據集,涵蓋文檔理解和網絡交互場景。實驗表明,Graph2Eval能高效生成區分智能體和模型性能的任務,揭示不同設置下推理、協作和網絡交互的差距,為智能體評估提供了新的視角。
幂变换是一种流行的参数化技术,用于使数据更接近高斯分布,并广泛用作统计分析和机器学习中的预处理步骤。然而,我们发现直接实现的幂变换存在严重的数值不稳定性,可能导致错误结果甚至系统崩溃。本文深入分析了这些不稳定性的来源,并提出了有效的解决方案。此外,我们将幂变换扩展到联邦学习环境中,解决了在此背景下出现的数值和分布挑战。在真实世界数据集上的实验表明,我们的方法既有效又稳健,与现有方法相比显著提高了稳定性。
接收者操作特徵(ROC)曲線與精確率-召回率(PR)曲線是評估機器學習分類器的基本工具,它們深入揭示了真陽性率與假陽性率(ROC)或精確率與召回率(PR)之間的權衡關係。然而,在聯邦學習(FL)場景中,數據分散於多個客戶端,由於隱私保護和通信限制,計算這些曲線面臨挑戰。具體而言,服務器無法訪問原始預測分數和類別標籤,這些在集中式設置中用於計算ROC和PR曲線。本文提出了一種新穎的方法,在聯邦學習環境下,通過在分佈式差分隱私框架下估計預測分數分佈的分位數,來近似計算ROC和PR曲線。我們提供了真實曲線與估計曲線之間面積誤差(AE)的理論界限,展示了近似精度、隱私保護與通信成本之間的權衡。基於真實世界數據集的實驗結果表明,我們的方法在最小化通信成本和提供強隱私保障的同時,實現了高精度的近似,使其成為聯邦系統中隱私保護模型評估的實用方案。
我们发布了Code World Model(CWM),一个拥有320亿参数的开源权重大型语言模型(LLM),旨在推动基于世界模型的代码生成研究。为了超越仅从静态代码训练中获得的代码理解能力,我们对CWM进行了中期训练,使用了大量来自Python解释器及自主Docker环境的观察-行动轨迹数据,并在可验证编码、数学及多轮软件工程环境中进行了广泛的多任务推理强化学习(RL)。通过CWM,我们为研究者提供了一个强大的测试平台,以探索世界模型在计算环境中通过推理与规划提升代码生成的潜力。我们初步展示了世界模型如何助力自主编码,实现Python代码执行的逐步模拟,并展示了推理如何从后者中获益的早期成果。CWM是一个密集的、仅解码器架构的LLM,训练上下文长度可达131k个标记。独立于其世界建模能力,CWM在通用编码与数学任务上表现出色:在SWE-bench Verified(含测试时扩展)上达到65.8%的pass@1分数,在LiveCodeBench上为68.6%,在Math-500上高达96.6%,在AIME 2024上则为76.0%。为支持代码世界建模的进一步研究,我们公开了中期训练、监督微调(SFT)及强化学习后的模型检查点。