每日精選AI研究論文及翻譯
人工智慧代理的興起,因自主工具使用與環境互動而引發了複雜的安全與安保挑戰。現有的防護機制模型缺乏代理風險意識及風險診斷的透明度。為建立能涵蓋複雜多元風險行為的代理防護機制,我們首先提出統一的三維分類法,以正交方式從風險來源(何處)、失效模式(如何)與後果(何事)三個維度系統化分類代理風險。在此結構化層級分類法的指導下,我們推出新型細粒度代理安全基準(ATBench)及專用於代理安全與安保的診斷式防護框架(AgentDoG)。AgentDoG能對代理行為軌跡進行細粒度情境化監控,更關鍵的是能診斷不安全行為及看似安全但不合理行為的根本原因,提供超越二元標籤的溯源能力與透明度,以促進有效的代理對齊。AgentDoG現提供基於Qwen和Llama模型系列的三種參數規模版本(4B、7B和8B)。大量實驗結果表明,AgentDoG在多樣化複雜互動場景中實現了最先進的代理安全調控效能。所有模型與資料集均已開源釋出。
當人類面臨超出當下能力的問題時,會借助工具來解決,這為提升多模態大型語言模型(MLLMs)的視覺推理能力提供了可行範式。因此,有效的推理關鍵在於:即使面對新工具或新任務,也能判斷該使用哪些工具、何時調用工具,以及如何進行多步驟的工具組合。我們提出 AdaReasoner——一個將工具使用作為通用推理技能(而非工具特定或需顯式監督的行為)來學習的多模態模型系列。AdaReasoner 的實現基於三大核心組件:(一)可擴展的數據構建流程,使模型接觸長視野、多步驟的工具交互;(二)Tool-GRPO 強化學習算法,根據最終任務成功率優化工具選擇與序列規劃;(三)自適應學習機制,動態調控工具使用頻率。這些組件共同使模型能從任務上下文與中間結果推斷工具效用,實現多工具協同操作並泛化至未見過的工具。實證研究表明,AdaReasoner 展現出強大的工具適應與泛化能力:即使未經顯式訓練,它也能自主採納有益工具、抑制無關工具,並根據任務需求調整工具使用頻率。這些能力轉化為在多項高難度基準測試中的領先表現:7B 基礎模型平均提升 24.9%,在多項任務(包括 VSP 與 Jigsaw)上超越 GPT-5 等強力專有系統。
具備卓越機器人操作潛能的視覺-語言-動作基礎模型,應能忠實地跨任務與平台泛化,同時確保成本效益(例如適應過程所需的數據量與GPU時長)。為此,我們基於9種主流雙臂機器人配置、約2萬小時真實數據開發了LingBot-VLA模型。通過在3種機器人平台上進行系統性評估(每平台完成100項任務,每任務包含130次訓練後測試),我們的模型顯著超越同類方案,展現出強勁性能與廣泛泛化能力。我們還構建了高效代碼庫,在8GPU訓練配置下可實現每秒261樣本的處理吞吐量,相較現有VLA專用代碼庫提速1.5~2.8倍(具體取決於所基於的VLM骨幹模型)。上述特性確保模型具備實際部署優勢。為推動機器人學習領域發展,我們開源了代碼、基模型與基準數據集,致力於支持更具挑戰性的任務研究並促進科學評估標準的建立。
人類透過建構內部世界模型並操縱其中的概念進行推理。近期人工智慧領域的進展,特別是思維鏈推理技術,已能近似實現這類人類認知能力——世界模型被認為內嵌於大型語言模型之中。當前系統主要依賴言語推理,已在數學與程式設計等形式化與抽象領域達到專家級表現。然而在需要更豐富表徵與先驗知識的物理及空間智能領域,這些系統仍遠落後於人類。具備言語與視覺雙重生成能力的統一多模態模型因此引發關注,其基於互補多模態路徑實現類人推理的潛力雖尚不明確,但已點燃研究熱情。本文從世界模型視角出發,首次系統性探究視覺生成何時及如何促進推理。我們的核心主張是視覺優勢假說:對於某些任務(特別是物理世界相關任務),視覺生成能更自然地充當世界模型,而純言語世界模型則會遭遇表徵局限或先驗知識不足的瓶頸。理論上,我們將內部世界建模形式化為思維鏈推理的核心組件,並分析不同形式世界模型的區別。實證方面,我們識別出需要交錯式視覺-言語思維鏈推理的任務,建構新型評估套件VisWorld-Eval。在頂尖統一多模態模型上的對照實驗表明:交錯式思維鏈在傾向視覺世界建模的任務上顯著優於純言語思維鏈,但在其他任務中未展現明顯優勢。本研究共同闡明了多模態世界建模對實現更強大類人多模態人工智慧的潛力。
網路影音片段透過隨時間變化的聲音與動態傳遞意義,其承載的資訊量已超越純文字所能表達的範疇。為探究人工智慧模型能否在人類文化脈絡中理解此類信號,我們推出AVMeme測驗——一個由人工精選的基準數據集,收錄逾千個標誌性網路聲音與影片,涵蓋語音、歌曲、音樂及音效等類型。每個迷因皆配備獨特的問答題組,評估層面從表層內容到上下文理解,從情感辨識到使用情境與世界知識,並附帶原始年份、轉錄文本、內容摘要及敏感度等元數據。我們以此基準系統性評估頂尖多模態大語言模型與人類受試者的表現。研究結果揭示一項持續存在的局限:當前模型在處理無文字音樂與音效時表現欠佳,且相較於表層內容理解,模型在文化情境中的思維能力明顯不足。這些發現凸顯了人類對齊多模態智能的關鍵缺口,呼籲開發能超越視聽表層、感知文化上下文的新型模型。專案頁面:avmemeexam.github.io/public
儘管視覺語言模型(VLMs)取得了重大進展,現有架構卻常因未能保留細粒度視覺資訊而導致多模態理解流於粗粒度。我們認為此缺陷源於主流VLM內在的次優訓練範式——其存在文本主導的優化偏差,僅將視覺信號概念化為被動條件輸入而非監督目標。為此,我們提出優圖-VL框架,採用視覺語言統一自迴歸監督(VLUAS)範式,從根本上將優化目標從「視覺作為輸入」轉向「視覺作為目標」。通過將視覺標記直接整合至預測流,優圖-VL對視覺細節與語言內容實施統一的自迴歸監督。此外,我們將此範式擴展至視覺中心任務,使標準VLM無需任務特定適配即可執行該類任務。大量實證評估表明,優圖-VL在通用多模態任務與視覺中心任務上均展現競爭力,為開發全面通用的視覺智能體奠定了堅實基礎。
大型語言模型(LLMs)推動了生成式智能體模擬(如AI Town)以建構「動態世界」,在娛樂與研究領域具有巨大價值。然而對非專業人士(尤其缺乏程式設計能力者)而言,自行客製化可視化環境存在困難。本文提出World Craft——一個透過用戶文本描述即可創建可執行、可視化AI Town的智能世界建構框架。該框架包含兩大核心模組:World Scaffold與World Guild。World Scaffold是開發互動遊戲場景的結構化簡潔標準,作為LLMs客製化可執行類AI Town環境的高效腳手架;World Guild則透過多智能體框架逐步解析用戶粗略描述中的意圖,並為World Scaffold合成所需結構化內容(如環境佈局與資源)。此外,我們透過逆向工程建構高品質糾錯數據集,以增強空間知識並提升佈局生成的穩定性與可控性,同時提供多維度評估指標供深入分析。大量實驗表明,本框架在場景建構與敘事意圖傳達方面顯著優於現有商業程式碼智能體(Cursor與Antigravity)及LLMs(Qwen3與Gemini-3-Pro),為環境創建的普及化提供了可擴展解決方案。
長文本大型語言模型的快速發展,重新引發了關於檢索增強生成技術是否仍有必要的討論。然而實證研究顯示,長文本推理仍存在持續性局限,包括中間信息丟失現象、高昂計算成本,以及多文檔推理的可擴展性不足等問題。相比之下,傳統RAG系統雖具效率,但受制於平面塊級檢索機制,這種機制會引入語義噪聲且無法支持結構化的跨文檔綜合分析。 我們提出FABLE框架——一種基於森林結構的自適應雙路徑LLM增強檢索系統,將大型語言模型深度整合到知識組織與檢索兩個層面。該框架首先構建具有多粒度語義結構的LLM增強型層次化森林索引,隨後採用雙路徑策略:結合LLM引導的層次化遍歷與結構感知傳播機制進行細粒度證據獲取,並通過顯式預算控制實現自適應的效率平衡。 大量實驗表明,FABLE在持續超越現有頂尖RAG方法的同時,能達到與全文本LLM推理相媲美的準確度,且實現高達94%的標記量壓縮。這證實長文本LLM實際強化了而非完全取代對結構化檢索的需求。
近年來,大型語言模型的安全風險日益凸顯,減緩有毒有害內容生成的需求迫在眉睫。當前主流的安全對齊範式通常採用三方協作框架:攻擊者負責生成對抗性提示,防禦者實施安全防護,評估者進行回應評判。本文提出名為TriPlay-RL的閉環強化學習框架,可在近乎零人工標註的條件下實現三個角色的迭代式協同優化。實驗結果表明:攻擊者在保持高輸出多樣性的同時,對抗效果提升20%-50%;防禦者安全性能獲得10%-30%的增益,且不損害通用推理能力;評估者通過迭代持續優化細粒度判斷力,能精準區分不安全回應、簡單拒絕與有效指導。總體而言,本框架建立了高效可擴展的安全對齊範式,在統一學習循環中實現了持續的協同演化。
大型語言模型的規模擴展正面臨瓶頸。增加模型寬度帶來的效益遞減,而擴展上下文長度也無法提升基礎表達能力。相比之下,深度擴展在理論上具有更優越的表達潛力,但當前的Transformer架構在極深層數下難以穩定訓練。我們重新審視後層歸一化(Post-LN)架構——該設計因大規模訓練不穩定性而被預層歸一化(Pre-LN)取代。我們發現Post-LN的核心失效模式源於ResNet風格的殘差路徑,這會導致深層網絡出現梯度消失問題。為此,我們提出Keel模型:一種採用高速公路式連接替代傳統殘差路徑的Post-LN Transformer。這種改進能維持殘差分支的梯度流動,防止頂層信號向底層傳播時消失。與既有方法不同,Keel無需特殊初始化或複雜優化技巧即可實現極深層數的穩定訓練。實驗表明,Keel在超過1000層的深度下仍能穩定訓練,並在困惑度與深度擴展特性上持續優於Pre-LN。這些發現證明,結合高速公路式連接的Post-LN架構能為構建深度可擴展的大型語言模型提供簡潔有效的基礎,為未來無限深度架構開闢了可能性。
尽管在对齐技术方面取得了显著进展,大型语言模型(LLMs)仍然容易受到引发有害行为的对抗性攻击。激活导向技术作为一种有前景的推理时干预方法,但现有方法存在关键局限:激活加法需要精细的系数调整且对层间范数变化敏感,而方向性消融仅能提供二元控制。近期提出的角度导向法通过二维子空间旋转实现连续控制,但其实际实施违反了范数保持原则,导致分布偏移和生成崩溃,尤其在70亿参数以下的模型中更为明显。我们提出选择性导向方法,通过两项关键创新解决这些局限:(1)采用数学严谨的范数保持旋转公式,维持激活分布完整性;(2)实施判别性层级选择,仅在特征表征呈现相反符号类别对齐的层级施加导向。在九个模型上的实验表明,选择性导向的攻击成功率较现有方法提升5.5倍,同时保持零困惑度异常,并在标准基准测试中实现约100%的能力保留。我们的方法为可控且稳定的大型语言模型行为修正提供了原理清晰、高效可行的框架。代码地址:https://github.com/knoveleng/steering
现代数据并行(DP)训练因其在均衡工作负载下的简洁性和高效性,通常倾向于采用集体通信而非参数服务器(PS)架构。然而在大语言模型(LLM)的后训练阶段,由于序列长度存在高度差异性,均衡工作负载的假设不再成立。在负载不均衡场景下,集体通信会形成同步屏障,导致低负载设备的算力利用率不足。这种训练动态的变化促使我们重新审视参数服务器范式对此类不均衡情况的适应性。我们提出按需通信(ODC)方法,通过用直接点对点通信替代集体全收集与规约散射操作,将参数服务器理念融入全分片数据并行(FSDP)框架。相较于FSDP,ODC将同步屏障从每层一次降低为每小批次一次,并解耦各设备的工作负载,使高速运算单元免于阻塞。该方法还能实现更简洁有效的小批次级负载均衡。在多样化的LLM后训练任务中,ODC持续提升设备利用率和训练吞吐量,较标准FSDP最高可实现36%的加速效果。这些结果表明ODC能更好地适应LLM后训练中普遍存在的不均衡工作负载。我们的ODC实现及与FSDP的集成方案已开源:https://github.com/sail-sg/odc。
我们提出了SimpleSeg,一种极其简单却高效的方法,旨在为多模态大语言模型(MLLMs)赋予原生像素级感知能力。该方法将分割任务重新定义为简单的序列生成问题:模型直接在语言空间内预测描述物体边界的点序列(文本坐标)。为实现高精度匹配,我们引入了两阶段SFtoRL训练流程,通过基于交并比奖励的强化学习来优化点序列,使其精确贴合真实轮廓。研究发现,标准MLLM架构本身具备强大的底层感知潜力,无需专用结构即可激活。在分割基准测试中,SimpleSeg取得了与依赖复杂任务专用设计的方法相媲美甚至更优的性能。这项工作揭示了精确空间理解可通过简单点预测实现,挑战了当前对辅助组件的普遍依赖,为构建更统一、更强大的视觉语言模型开辟了新路径。项目主页:https://simpleseg.github.io/
近期,我们在审稿论文、预印本及已发表文献中频繁观察到引用内容与现有研究成果不符的虚构引用现象。这类"幻觉引用"(HalluCitation)严重威胁科学可靠性,若出现在录用论文中更可能损害学术会议的公信力。本研究系统调查了幻觉引用的普遍性及影响,通过分析ACL、NAACL和EMNLP三大会议2024-2025年所有出版物(含主会、Findings分会及研讨会论文),发现近300篇论文存在至少一处幻觉引用,其中多数发表于2025年。值得注意的是,仅EMNLP 2025这一最新会议就占据半数案例,表明该问题正加速蔓延。更严重的是,EMNLP 2025主会及Findings分会录用的此类论文逾百篇,已对学术信誉造成实质性影响。
扩散模型虽能实现顶尖性能,却常难以生成符合人类偏好与意图的输出,导致图像美学质量欠佳及语义不一致。现有对齐方法面临艰难权衡:微调方法会因奖励过优化而丧失多样性,测试时缩放方法则带来显著计算开销且易优化不足。为突破这些局限,我们提出HyperAlign——一种训练超网络以实现高效测试时对齐的新框架。该框架不直接修改隐状态,而是动态生成低秩适配权重来调制扩散模型的生成算子,使去噪轨迹能根据输入潜变量、时间步和提示词进行自适应调整,实现奖励条件对齐。我们开发了多种HyperAlign变体,其差异在于超网络的应用频率,以平衡性能与效率。此外,我们采用偏好数据正则化的奖励得分目标来优化超网络,以减少奖励破解现象。在Stable Diffusion和FLUX等扩展生成范式中评估表明,HyperAlign在提升语义一致性与视觉吸引力方面显著优于现有微调及测试时缩放基线方法。
基準測試是追蹤大型語言模型發展進程的重要工具,然而數據集與評估方法的準確性問題卻持續削弱其有效性。本文提出Omni-MATH-2——經人工校訂的Omni-MATH數據集升級版,包含精確答案子集(n=4181)與帶標籤的非標準子集(n=247)。我們對每道題目進行審核以確保LaTeX可編譯性、可解性與可驗證性,具體措施包括補充缺失圖形或信息、標註需證明/估算/圖像輔助的題目,並剔除冗余內容。這一流程顯著降低了數據集導致的噪聲,從而為模型性能提供更精準的評估。註解化數據集還使我們能通過比較GPT-5 mini與原始Omni-Judge來評估評判器導致的噪聲,結果顯示兩者在純淨子集與標籤子集上均存在顯著差異。專家標註表明,在評判分歧案例中Omni-Judge的錯誤率高達96.4%,證明其即便在基準測試遠未飽和前已無法有效區分模型能力。隨著問題難度提升,我們發現需要能力更強的評判器來防止評判錯誤掩蓋模型間的真實差異。最後,兩款評判器均未能識別標籤題子集中的現有失效模式,這表明數據集質量與評判器可靠性對構建精準的模型性能基準同樣關鍵。
G蛋白偶联受体(GPCRs)调控多种生理过程,是现代药理学研究的核心。然而,由于受体激活常源于复杂的变构效应而非直接结合亲和力,且传统检测方法速度慢、成本高、难以捕捉这些动态过程,GPCR调节剂的发现仍面临挑战。本文提出GPCR-Filter——一个专为GPCR调节剂发现而开发的深度学习框架。我们整合了超过9万个经实验验证的GPCR-配体对数据构建高质量数据集,为模型训练与评估提供坚实基础。该框架融合ESM-3蛋白语言模型生成高保真GPCR序列表征,通过基于注意力的融合机制与编码配体结构的图神经网络相耦合,从而学习受体-配体功能关系。在多种评估场景下,GPCR-Filter持续优于当前最先进的化合物-蛋白质相互作用模型,并对未见过受体和配体表现出强大泛化能力。值得注意的是,该模型成功识别出具有独特化学框架的5-HT1A受体微摩尔级激动剂。这些成果确立了GPCR-Filter作为可扩展的高效计算方法在GPCR调节剂发现中的应用价值,推动了针对复杂信号系统的AI辅助药物研发进程。
深度传感器已在各类机器人平台广泛部署,而快速高保真深度模拟技术的进步使得基于深度观测训练的机器人策略能够在多种任务中实现稳健的仿真到现实迁移。尽管如此,与已由大规模基础模型定义技术前沿的RGB模态相比,深度模态的表征学习仍处于探索不足的状态。为弥补这一空白,我们提出DeFM——一种专为机器人应用完全基于深度图像训练的自监督基础模型。通过在精选的6000万张深度图像数据集上采用DINO风格的自蒸馏目标,DeFM能够学习可泛化至不同环境、任务和传感器的几何与语义表征。为在多尺度下保持度量感知能力,我们引入了新颖的输入归一化策略。进一步将DeFM蒸馏为适用于资源受限机器人系统的紧凑模型。在基于深度的分类、分割、导航、运动与操作基准测试中,DeFM实现了最先进的性能,并展现出从仿真到真实环境的强大泛化能力。我们开源所有预训练模型,这些模型可直接用于基于深度的机器人学习而无需任务特定微调。项目页面:https://de-fm.github.io/
解決團隊衝突不僅需要任務專項能力,更需具備尋找共同立場、建立共識的社交智能。隨著人工智能代理在複雜工作中日益頻繁地協作,它們必須發展協調能力才能成為高效團隊成員。然而我們假設當前代理尚不具備這些能力。為驗證此假設,我們推出CooperBench基準測試,包含4種編程語言中12個函式庫的600餘項協作編碼任務。每項任務為兩個代理分配可獨立實現但缺乏協調可能產生衝突的不同功能,所有任務均基於真實開源程式庫並配備專家編寫的測試用例。通過評估頂尖編碼代理,我們觀察到「協調悖論」現象:與獨立完成雙任務相比,代理協作時成功率平均降低30%。這與人類團隊中增加成員通常提升效率的現象形成鮮明對比。分析揭示三大關鍵問題:(1)溝通渠道充斥模糊、時機不當且不準確的訊息;(2)即使有效溝通後,代理仍會偏離承諾;(3)代理常對他人計劃與溝通持有錯誤預期。大規模模擬中我們還觀察到罕見但有趣的湧現協調行為,包括角色分工、資源分配和協商機制。本研究提出創新型協作編碼基準,呼籲從追求單體代理能力轉向發展社交智能。
Verilog的设计流程本质上是劳动密集型的,且需要深厚的领域专业知识。尽管大语言模型为实现自动化提供了可行路径,但其有限的训练数据与固有的顺序推理能力难以捕捉硬件系统严格的形式化逻辑和并发特性。为突破这些限制,我们提出了EvolVE——首个在芯片设计任务中分析多种进化策略的框架,发现蒙特卡洛树搜索在最大化功能正确性方面表现卓越,而思想引导优化则在电路优化方面更具优势。我们进一步利用结构化测试平台生成技术加速进化过程。针对复杂优化基准测试的缺失,我们推出了IC-RTL基准集,其目标源自全国集成电路设计竞赛的工业级问题。评估结果表明EvolVE实现了最新技术水平,在VerilogEval v2和RTLLM v2上分别达到98.1%和92%的通过率。更重要的是,在工业级IC-RTL测试集中,我们的框架超越了竞赛参与者编写的参考实现:在霍夫曼编码任务中将功耗、性能、面积综合指标最高降低66%,所有问题的几何平均值优化达17%。IC-RTL基准集源代码已发布于https://github.com/weiber2002/ICRTL。
持续学习能力——使模型能够在不削弱现有能力的前提下掌握新技能与知识——始终是基础模型面临的核心挑战。虽然同策略强化学习可减轻遗忘现象,但其依赖的显式奖励函数往往难以获取。基于专家示范的学习作为主要替代方案,目前以监督微调为主导,而这种方法本质上是异策略的。我们提出自蒸馏微调法,这种简洁的方法能够直接从示范数据中实现同策略学习。SDFT通过让示范条件化模型担任自身导师,充分利用上下文学习能力,生成同策略训练信号,从而在掌握新技能的同时保持原有能力。在技能学习与知识获取任务中,SDFT持续超越监督微调,既获得更高的新任务准确率,又显著降低灾难性遗忘。序列学习实验表明,SDFT能使单一模型随时间推移持续积累多项技能且不发生性能衰退,确立了同策略蒸馏作为示范数据持续学习的可行路径。