每日精選AI研究論文及翻譯
我們推出通義深度研究(Tongyi DeepResearch)——一款專為長時程深度資訊探索研究任務設計的智能體大型語言模型。為激發自主深度研究能力,該模型通過結合智能體中期訓練與智能體後期訓練的端到端訓練框架開發,實現跨複雜任務的可擴展推理與資訊探索。我們設計了高度可擴展的全自動數據合成管線,無需依賴高成本人工標註,即可支撐所有訓練階段。通過為每個階段構建定制化環境,我們的系統能實現全流程穩定一致的交互。通義深度研究模型總參數量達305億,每令牌僅激活33億參數,在包括「人類終極考試」、BrowseComp、BrowseComp-ZH、WebWalkerQA、xbench-DeepSearch、FRAMES及xbench-DeepSearch-2510在內的一系列智能體深度研究基準測試中均達到頂尖性能。我們將開源模型、框架及完整解決方案,以賦能研究社群。
語言代理在網路搜索與資訊檢索領域展現出卓越潛力。然而現有搜尋代理皆假設使用者查詢具備完整性與明確性,此假設與現實情境存在顯著差異——使用者往往從模糊的初始查詢出發,需透過互動逐步釐清需求。當前多數代理缺乏搜尋過程中的互動機制,且現有評測基準無法有效評估此項能力。為填補此空白,我們提出InteractComp評測框架,專門檢驗搜尋代理能否識別查詢模糊性並主動透過互動化解歧義。遵循「易驗證、互動消歧義」原則,我們採用目標-干擾項方法建構涵蓋9大領域的210道專家級題目,創造僅能透過互動解決的真實模糊情境。對17個模型的評估揭示驚人缺陷:最佳模型僅達13.73%準確率(完整上下文情境下可達71.50%),暴露系統性過度自信而非推理能力不足。強制互動策略帶來顯著提升,證明現有策略未能激發潛在能力。縱向分析顯示互動能力在15個月內停滯不前,而搜尋性能提升七倍,揭示關鍵發展盲點。這種停滯現象結合搜尋任務固有的即時回饋特性,使InteractComp成為評估與訓練搜尋代理互動能力的寶貴資源。程式碼已開源於:https://github.com/FoundationAgents/InteractComp。
基於大型語言模型的網路代理在資訊搜尋領域展現巨大潛力,但其在長時程任務中的效能受到上下文管理根本性權衡的限制。主流基於ReAct框架的代理會因累積雜亂的原始歷史記錄而遭遇上下文飽和問題,而那些在每一步固定彙整完整歷史的方法則可能導致關鍵細節不可逆的遺失。為解決這些問題,我們受人類回顧性鞏固的認知過程啟發,提出AgentFold這一以主動式上下文管理為核心的新型代理範式。AgentFold將其上下文視作可主動塑形的動態認知工作區,而非被動填充的日誌。在每個步驟中,它通過學習執行「摺疊」操作來實現多尺度歷史軌跡管理:既可進行細粒度濃縮以保存重要的微觀細節,也能執行深度整合來抽象化整個多步驟子任務。在知名基準測試中的結果令人矚目:僅通過簡單的監督微調(無需持續預訓練或強化學習),我們的AgentFold-30B-A3B代理在BrowseComp上達到36.2%,在BrowseComp-ZH上達到47.3%。尤為突出的是,此效能不僅超越或匹敵規模大得多的開源模型(如DeepSeek-V3.1-671B-A37B),更勝過領先的專有代理如OpenAI的o4-mini。
近年來,多模態大型語言模型(MLLMs)的突破性進展,極大地推動了機器人操作領域中視覺-語言-動作(VLA)模型的快速發展。儘管現有方法在許多場景中表現出色,但它們主要依賴明確指令進行操作,而現實世界中的人類互動極少直接下達指令。要實現高效協作,機器人必須具備主動推斷使用者意圖的能力。為此,我們提出「跨模態情境指令」這一新設定,意圖識別來源轉為語音對話、環境聲響與視覺線索,而非顯性命令。針對此設定,我們推出RoboOmni——基於端到端全模態大型語言模型的感知-思考-對話-執行框架,統一整合意圖識別、交互確認與動作執行。RoboOmni透過時空融合聽覺與視覺訊號實現強健的意圖識別,並支援直接語音交互。為解決機器人操作領域缺乏主動意圖識別訓練數據的問題,我們構建了包含14萬個操作片段、5000+說話者、2400種事件音效、640種背景環境及六類情境指令的OmniAction數據集。模擬與實境實驗表明,RoboOmni在成功率、推理速度、意圖識別與主動輔助方面均優於基於文本和語音識別(ASR)的基準模型。
我們提出Game-TARS——一種基於人類對齊的鍵鼠原生輸入錨定、採用統一可擴展動作空間訓練的通才型遊戲智能體。與基於API或GUI的方法不同,該範式支持跨異構領域的大規模持續預訓練,涵蓋操作系統、網頁及模擬遊戲等場景。Game-TARS通過5000億標記量的多模態數據與多樣化軌跡進行預訓練,其核心技術包括用於降低因果混淆的衰減持續損失函數,以及平衡推理深度與推斷成本的稀疏思維策略。實驗表明:Game-TARS在開放世界《我的世界》任務中達成約兩倍於前代最優模型的成功率,在未見網頁3D遊戲中接近人類新手的泛化能力,並在FPS基準測試中超越GPT-5、Gemini-2.5-Pro與Claude-4-Sonnet。訓練階段與測試階段的擴展實驗證實,統一動作空間在跨遊戲多模態數據擴展時能持續提升性能。我們的研究成果表明,簡潔可擴展的動作表徵與大規模預訓練相結合,為構建具備廣泛計算機使用能力的通才智能體開闢了可行路徑。
連續空間影片生成技術發展迅速,而離散方法因誤差累積與長序列不一致性問題進展滯後。本研究重新審視離散生成建模,提出具備度量路徑的均勻離散擴散框架(URSA),這一簡潔而強大的架構成功縮小了離散方法與連續方法在可擴展影片生成領域的差距。URSA的核心在於將影片生成任務定義為離散時空標記的迭代式全局優化過程,其整合了兩項關鍵設計:線性化度量路徑與解析度相關時間步偏移機制。這些設計使URSA能高效擴展至高解析度影像合成與長時序影片生成,同時大幅減少推理所需步數。此外,我們提出非同步時序微調策略,將插值與影像轉影片等多樣化任務統一於單一模型中。在具挑戰性的影片與影像生成基準測試中,大量實驗表明URSA不僅持續超越現有離散方法,更達到與頂尖連續擴散方法相當的性能。程式碼與模型已開源於:https://github.com/baaivision/URSA
關於大規模監督式微調人工智慧代理的公開研究成果目前仍相對稀少,主要原因在於代理訓練資料的收集存在獨特挑戰。本研究主張,瓶頸並非在於底層資料來源的匱乏,而是大量多樣化的資料分散在異質性格式、工具與介面中。為此,我們提出代理資料協定(ADP)——一種輕量級的表示語言,可作為不同格式代理資料集與下游統一代理訓練流程之間的「中介語言」。ADP的設計具備足夠表達力,能涵蓋多種類型任務(包括API/工具使用、瀏覽、編程、軟體工程及通用代理工作流),同時保持易解析性,無需針對單一資料集進行工程化處理即可直接訓練。實驗中,我們將13個現有代理訓練資料集統一轉換為ADP格式,並把標準化後的ADP資料轉為多種代理框架可直接訓練的格式。經監督式微調後,模型在標準編程、瀏覽、工具使用及研究基準測試中,相較基礎模型平均效能提升約20%,且無需領域特定調優即達到業界頂尖或接近頂尖水準。所有程式碼與資料均已公開釋出,期望ADP能助力降低標準化、可擴展且可重現的代理訓練門檻。
現有的視覺-語言-動作模型雖能在三維現實世界中行動,但通常建基於二維編碼器,存在空間推理差距,限制了泛化能力與適應性。近期針對VLA的三維整合技術要么需要特殊傳感器且跨模態遷移效果不佳,要么注入缺乏幾何信息的弱線索並損害視覺-語言對齊。本研究提出FALCON(從空間到動作)新範式,通過向動作頭注入豐富的三維空間標記,僅利用RGB圖像即可通過空間基礎模型提供強幾何先驗。該框架包含具身空間模型,可選擇性融合深度信息或位姿數據以提升保真度,且無需重新訓練或改變架構。為保持語言推理能力,空間標記由空間增強型動作頭處理而非直接拼接至視覺-語言主幹網。這些設計使FALCON能突破空間表徵、模態遷移性和對齊性的局限。在三個仿真基準與十一項現實任務的綜合評估中,FALCON實現了最先進的性能,持續超越競爭基線模型,並在雜亂環境、空間提示條件化、物體尺度與高度變化等場景下保持強健性。
近年來,基於Diffusion-in-Transformer模型的圖像編輯技術發展迅速。然而,現有編輯方法往往缺乏對編輯程度的有效控制,限制了其實現更個性化結果的能力。為解決這一侷限性,我們研究了DiT模型中的MM-Attention機制,觀察到Query和Key令牌共享一個僅與網絡層相關的偏置向量。我們將此偏置解讀為模型固有的編輯行為特徵,而各令牌與對應偏置間的差值則編碼了內容特定的編輯信號。基於此發現,我們提出了群組相對注意力引導(GRAG)方法,通過重新加權不同令牌的差值來調控模型對輸入圖像與編輯指令的關注比例,無需任何調參即可實現對編輯強度的連續細粒度控制。在現有圖像編輯框架上的大量實驗表明,GRAG僅需四行代碼即可集成,並能持續提升編輯質量。與常用的Classifier-Free Guidance相比,GRAG能實現更平滑精準的編輯程度控制。我們的代碼將發佈於https://github.com/little-misfit/GRAG-Image-Editing。
推理性解码通过使用小型草稿模型预测多个待选标记,并由目标模型并行验证的方式加速大语言模型推理。将这一思路扩展至批处理场景对生产环境部署至关重要,但会引发非规则张量问题:同一批次中的序列会接受不同数量的草稿标记,破坏右对齐特性并导致位置编码、注意力掩码和KV缓存状态紊乱。我们发现现有多种批处理实现会违反输出等价性——即推理性解码必须与标准自回归生成产生完全相同标记序列的基本要求。这些违规现象正是由于对非规则张量问题的处理不当所致。为此,我们(1)明确了保证正确性的同步需求规范,(2)提出正确性优先的批处理推理性解码方案EQSPEC,揭示重对齐操作占总开销的40%,(3)设计EXSPEC方案,通过维护序列滑动池动态组建等长组,在保持单序列加速效果的同时降低重对齐开销。在SpecBench数据集上,基于Vicuna-7B/68M、Qwen3-8B/0.6B和GLM-4-9B/0.6B的目标/草稿模型组合,我们的方法在批次大小为8时相比单序列处理实现最高3倍吞吐量提升,且能保持95%的输出等价性。该方案无需定制化内核,可无缝集成现有推理框架。代码已开源:https://github.com/eBay/spec_dec。
基於大型語言模型的搜尋代理器正日益透過以實體為中心的合成資料進行訓練,以解決複雜且知識密集的任務。然而,現行訓練方法如群組相對策略優化(GRPO)卻捨棄了這些豐富的實體資訊,僅依賴稀疏的結果導向獎勵機制。此關鍵缺陷使其無法區分具有重要資訊的「近似成功」樣本(即推理過程基本正確但最終答案有誤的案例)與完全失敗的案例,從而丟失了寶貴的學習信號。我們透過利用訓練過程中被忽視的實體資訊來解決此問題。實證分析顯示,代理器在推理過程中識別出的真實實體數量與最終答案準確率存在強烈正相關。基於此發現,我們提出實體感知群組相對策略優化(E-GRPO),該創新框架構建了一種密集的實體感知獎勵函數。E-GRPO會根據錯誤樣本的實體匹配率分配部分獎勵,使模型能從這些「近似成功」案例中有效學習。在多樣化的問答系統與深度研究基準測試中,E-GRPO均持續顯著超越GRPO基線模型。進一步分析表明,E-GRPO不僅能達成更高準確率,還能誘導出更高效的推理策略,減少工具調用次數,展現出對齊搜尋代理器更有效且具樣本效率的新途徑。
在大型语言模型能力边界的前沿任务上训练智能体,是解锁高级推理能力的关键。我们受"最近发展区"教育理论启发,提出一种数据合成方法——该理论将能力边界定义为语言模型虽无法独立解决、但能在引导下掌握的任务。为实现这一理念,我们推出AgentFrontier引擎:一个自动化流水线系统,能精准生成位于语言模型最近发展区的多学科高质量数据。该引擎既支持基于知识密集型数据的持续预训练,也支持针对复杂推理任务的定向后训练。基于同一框架,我们开发出ZPD测评体系——一个动态自动化基准测试平台,专门用于评估智能体在前沿任务上的表现。通过使用合成数据训练的AgentFrontier-30B-A3B模型,在《人类终极考试》等高难度基准测试中取得了领先成果,甚至超越部分主流专有智能体。我们的研究表明,以最近发展区为指导的数据合成方法,为构建更强能力的语言模型智能体提供了可扩展的有效路径。
随着决策与推理能力的进步,多模态智能体在计算机应用场景中展现出巨大潜力。现有评估主要关注图形用户界面交互能力,而对基于模型上下文协议(MCP)等工具调用功能的评估长期缺失。将集成工具调用的智能体与仅评估GUI交互的智能体直接对比存在本质不公。我们推出OSWorld-MCP——首个在真实环境中全面公正评估计算机使用智能体的工具调用、GUI操作及决策能力的基准平台。通过创新的自动化代码生成流程,我们既创建了新工具,又整合了现有工具的精选集合。经严格人工验证后形成158个高质量工具(覆盖7类常用应用),每个工具均通过功能性、实用性与多场景适用性三重检验。基于OSWorld-MCP对前沿多模态智能体的大规模评估表明:MCP工具能普遍提升任务成功率(如OpenAI o3在15步时从8.3%提升至20.4%,Claude 4 Sonnet在50步时从40.1%提升至43.3%),印证了评估工具调用能力的必要性。但当前最强模型的工具调用率仍偏低(仅36.3%),既揭示改进空间,也凸显该基准的挑战性。OSWorld-MCP通过显式衡量MCP工具使用技能,深化了对多模态智能体的认知,为复杂工具辅助环境下的性能评估设立了新标准。相关代码、环境及数据已公开于https://osworld-mcp.github.io。
尽管多模态大语言模型(MLLMs)在视觉理解方面表现出色,但在需要视觉规划与想象力的复杂场景中往往表现不佳。受人类通过草图作为视觉思维工具来构思和传达想法的启发,我们提出了潜在画板(Latent Sketchpad)框架,为MLLMs配备了内部视觉草稿本。传统上MLLMs的内部视觉表征仅局限于感知理解,我们将其重新定位为支持生成式视觉思维,同时不损害推理能力。基于前沿MLLMs,我们的方法将视觉生成直接整合到其原生自回归推理流程中,使模型能够将文本推理与视觉潜变量的生成交错进行。这些潜变量既能引导内部思维过程,也可通过译码生成可解释的草图图像。为实现这一目标,我们引入两个核心组件:情境感知视觉头(Context-Aware Vision Head)负责自回归生成视觉表征,预训练草图解码器(Sketch Decoder)则将其渲染为人类可理解的图像。我们在新构建的迷宫规划数据集(MazePlanning)上评估该框架,实验表明潜在画板在各类MLLMs中均能取得与骨干网络相当甚至更优的推理性能,并成功泛化至Gemma3、Qwen2.5-VL等不同前沿模型。通过将模型的文本推理能力延伸至视觉思维领域,我们的框架为人机交互的丰富化和应用场景的拓展开辟了新路径。更多细节与资源请访问项目主页:https://latent-sketchpad.github.io/。
近期,大型语言模型(LLMs)催生了能够生成、执行和修正可视化代码的编程智能体。然而,现有模型因语言覆盖范围有限、执行可靠性不足以及缺乏迭代修正机制,在实际工作流程中往往表现不佳。这一领域的发展长期受限于强调单轮生成和单一语言任务的狭窄数据集与基准测试。为应对这些挑战,我们推出三项互补资源以推动可视化编程智能体的发展:VisCode-Multi-679K作为大规模监督数据集,包含67.9万个经过验证的可执行可视化样本,涵盖12种编程语言的多轮修正对话;VisPlotBench作为系统性评估基准,具备可执行任务、渲染输出及支持初始生成与多轮自调试的协议框架;最后,我们提出基于VisCode-Multi-679K训练的多语言可视化模型系列VisCoder2。实验表明,VisCoder2显著优于主流开源基线模型,并逼近GPT-4.1等专有模型性能,通过迭代自调试进一步将总体执行通过率提升至82.4%(32B规模),尤其在符号化或依赖编译器的语言中表现突出。
训练批判性语言模型来评估模型输出并提供反馈,是提升大型语言模型复杂推理能力的有效途径。然而现有方法通常依赖更强监督者进行批判数据标注。为解决这一问题,我们提出Critique-RL——一种无需强监督即可开发批判性语言模型的在线强化学习方法。该方法采用双智能体交互范式:行动者生成响应,批判者提供反馈,行动者据此优化回答。我们首先发现,仅依靠行动者输出产生的间接奖励信号进行强化学习优化,往往会导致批判者表现欠佳:其帮助性(即提供建设性反馈的能力)虽有提升,但判别力(即判断响应质量高低的能力)仍然不足,最终导致性能提升有限。为突破此局限,Critique-RL采用两阶段优化策略:第一阶段通过基于规则的直接奖励信号强化批判者的判别力;第二阶段引入基于行动者优化效果的间接奖励来提升批判者的帮助性,同时通过适当正则化保持其判别力。在多任务和多模型的广泛实验中,Critique-RL均展现出显著性能提升。以Qwen2.5-7B模型为例,其在领域内任务和领域外任务上分别实现9.02%和5.70%的性能增益,充分彰显了该方法的潜力。
平行思维通过扩展探索广度,与信息搜索(IS)智能体的深度探索形成互补,从而进一步提升问题解决能力。然而传统平行思维在此场景下面临两大挑战:因需反复从头开始推演而导致的效率低下,以及在答案生成过程中难以整合长程推理轨迹——有限的上下文容量阻碍了对推理过程的全面考量。为解决这些问题,我们提出面向深度IS智能体的两阶段范式ParallelMuse。第一阶段"功能化分段推演"将生成序列划分为功能区块,通过不确定性引导的路径复用与分支机制提升探索效率;第二阶段"压缩式推理聚合"利用推理冗余性,对答案推导相关信息进行无损压缩并综合生成连贯的最终答案。在多个开源智能体与基准测试上的实验表明,该方法可实现最高62%的性能提升,同时减少10-30%的探索性令牌消耗。
基于大语言模型(LLM)的智能体已成为解决开放性问题的重要突破,其中信息检索(IS)作为实现自主推理与决策的核心能力尤为关键。尽管现有研究主要聚焦于提升检索深度,我们发现当前IS智能体普遍存在搜索效率低下的问题,进而制约整体性能。这种低效现象的核心成因在于训练任务中目标实体的稀疏性,限制了智能体学习并泛化高效搜索行为的机会。为应对这些挑战,我们提出WebLeaper框架——通过构建高覆盖度的IS任务并生成高效解决轨迹的系统方案。我们将IS问题形式化为树状推理结构,使大量目标实体能在有限上下文中实现嵌入。借助精心筛选的维基百科表格,我们设计了基础型、联合型及逆向联合型三种任务生成变体,系统化提升IS的效能与效率。最后通过仅保留同时具备准确性与高效性的训练轨迹,确保模型在正确性与搜索性能上获得双重优化。在五大IS基准测试(BrowserComp、GAIA、xbench-DeepSearch、WideSearch和Seal-0)上进行的广泛实验表明,无论是基础场景还是综合场景,我们的方法在效果与效率方面均持续超越现有强基线模型。
目前缩放定律的研究过度集中于英语领域,而最前沿的人工智能模型却明确服务于全球数十亿用户。本研究开展了迄今为止规模最大的多语言缩放定律分析,累计完成774项多语言训练实验,涵盖1000万至80亿参数规模、400多种训练语言及48种评估语言。我们提出的自适应迁移缩放定律(ATLAS)在单语与多语预训练场景中均表现优异,其样本外泛化能力相较现有缩放定律普遍提升超过0.3个R²值。通过实验分析,我们揭示了多语言学习动态机制、语言间迁移特性以及多语化诅咒现象。首先,我们推导出跨语言迁移矩阵,实证测量了38×38=1444组语言对的相互增益指数;其次,建立了语言无关的缩放定律,揭示在扩展语言种类时如何优化模型规模与数据配置以保持性能;最后,确定了从零开始预训练与基于多语检查点微调的计算效益临界点。这些发现有望为缩放定律的跨语言普及提供科学基础,助力开发者突破英语优先的人工智能开发范式,实现模型的高效扩展。
混合专家模型(MoE)已成为扩展模型容量同时保持计算效率的重要范式。尽管该范式在大型语言模型(LLM)领域取得显著成功,但现有将MoE应用于扩散变换器(DiT)的尝试收效有限。我们认为这一差距源于语言令牌与视觉令牌的根本差异:语言令牌具有语义密集性和显著的令牌间差异性,而视觉令牌则呈现空间冗余性和功能异质性,阻碍了视觉MoE中的专家专业化。为此,我们提出ProMoE框架,该框架采用具有显式路由指导的双步路由器机制以促进专家专业化。具体而言,该指导通过条件路由根据功能角色将图像令牌划分为条件集和无条件集,并通过基于语义内容的可学习原型进行原型路由,优化条件图像令牌的分配。此外,原型路由实现的潜在空间相似性专家分配机制,为引入显式语义指导提供了自然途径,我们验证了此类指导对视觉MoE的关键作用。基于此,我们提出路由对比损失函数,显式增强原型路由过程,促进专家内部一致性与专家间多样性。在ImageNet基准上的大量实验表明,ProMoE在整流流和DDPM两种训练目标下均优于现有最优方法。代码与模型将公开发布。
尽管多模态大语言模型和大型音频语言模型发展迅速,但现有音频基准主要测试可从文本描述中恢复的语义信息,这掩盖了模型在细粒度感知推理方面的缺陷。我们正式提出"音频四维智能"概念,即对声音在时间与三维空间中动态变化的推理能力,并推出STAR-Bench基准进行量化评估。该基准融合基础听觉感知(包含绝对与相对两种判断机制下的六种属性)与整体时空推理(涵盖连续/离散过程的片段重组任务,以及静态定位、多源关系、动态轨迹三类空间任务)两大评估维度。我们通过两种数据构建方法确保样本质量:基础任务采用程序化合成与物理仿真音频;整体推理数据则遵循四阶段流程,包含人工标注与基于人类表现效果的最终筛选。相较于现有基准仅靠文本回答导致的轻微准确率下降,STAR-Bench在时序(-31.5%)与空间(-35.2%)任务上引发更显著的性能落差,证明其聚焦于语言难以描述的感知线索。对19个模型的评估揭示了与人类的显著差距及能力分层:闭源模型受限于细粒度感知能力,而开源模型在感知、知识、推理三个维度全面落后。STAR-Bench为开发具有更强物理世界理解能力的未来模型提供了关键洞见与清晰路径。
截至目前,覆盖大量语言文化的大语言模型文化特异性评估基准几乎空白。本文推出Global PIQA——一个涵盖逾百种语言的参与式常识推理基准数据集,由来自全球65个国家的335位研究者手工构建而成。该数据集包含的116种语言变体覆盖五大洲、14个语系及23种文字系统。在非平行数据分集中,超过50%的实例涉及地方饮食、习俗、传统或其他文化特异性元素。研究发现,尽管顶尖大语言模型在Global PIQA整体表现良好,但在低资源语言中表现较弱(准确率差距最高达37%,而随机基准为50%)。开源模型普遍逊色于专有模型。Global PIQA揭示出:相较于广泛讨论的复杂推理和专业知识等能力,众多语言文化中的日常知识认知仍是待改进领域。除却大语言模型评估功能,我们更期待Global PIQA能展现人类语言所根植的多元文化图景。
自我改进系统需要通过环境交互实现持续适应。我们提出SPICE(语料库环境中的自我博弈)——一种强化学习框架,其单一模型扮演双重角色:作为挑战者从大型语料库中挖掘文档以生成多样化推理任务,同时作为推理者解决这些任务。通过对抗性动态,挑战者在推理者能力边界上创建自动课程,而语料库根基则为持续改进提供了丰富且近乎取之不尽的外部信号。相较于现有根基薄弱的自我博弈方法收效有限的情况,SPICE在多个模型系列的数学推理(+8.9%)和通用推理(+9.8%)基准测试中均实现稳定提升。我们的分析揭示了文档根基如何作为SPICE持续生成日益复杂的自定目标并实现目标的关键要素,从而达成持续自我改进。
可验证奖励的强化学习(RLVR)在数学与多模态推理领域展现出显著成效,已成为当代语言及视觉语言模型的标准后训练范式。然而该方案存在能力衰退的重大风险——若未采用正则化策略,模型在长期训练后可能遗忘基础技能。我们通过实证研究证实了这一担忧,发现开源推理模型在感知能力、事实一致性等核心指标上出现性能退化。虽然施加KL散度等正则化项有助于防止模型偏离基础模型,但这些项仅基于当前任务计算,无法保证广泛知识的保留。与此同时,跨异构领域的常用经验回放方法难以确定各训练目标应占的权重比例。为此,我们提出RECAP动态目标重加权回放策略,以实现通用知识保存。该重加权机制通过收敛性和不稳定性的短期信号进行在线自适应调整,将后训练重心从已饱和目标转向表现欠佳或波动较大的目标。我们的方法采用端到端设计,无需训练额外模型或复杂调参即可直接应用于现有RLVR流程。基于Qwen2.5-VL-3B和Qwen2.5-VL-7B的基准测试表明,该方法不仅能有效保留通用能力,还可通过灵活调整任务内奖励的权衡关系进一步提升推理性能。
可视化作为一种领域特定但广泛应用的图像形式,是将复杂数据集转化为直观洞见的重要手段,其价值取决于能否忠实呈现数据、清晰传递信息并具备美学设计。然而,可视化质量评估具有挑战性:与自然图像不同,它需要同时考量数据编码准确性、信息表达清晰度和视觉美学表现。尽管多模态大语言模型在自然图像美学评估中展现出潜力,但目前缺乏系统性基准来衡量其在可视化评估方面的能力。为此,我们提出VisJudge-Bench——首个用于评估MLLMs可视化美学与质量分析能力的综合基准。该基准包含3,090个来自真实场景的专家标注样本,涵盖32种图表类型,涉及单图、多图和仪表板三种场景。系统性测试表明,即使最先进的MLLMs(如GPT-5)在判断力上仍与人类专家存在显著差距,其平均绝对误差达0.551,与人类评分相关性仅为0.429。针对此问题,我们提出专用于可视化美学与质量评估的模型VisJudge。实验结果显示,VisJudge显著缩小了与人类判断的差距:相较于GPT-5,平均绝对误差降低至0.442(降幅19.8%),与人类专家的一致性提升至0.681(增幅58.7%)。该基准已发布于https://github.com/HKUSTDial/VisJudgeBench。
超高分辨率(UHR)文本到图像(T2I)生成技术已取得显著进展,但依然面临两大核心挑战:其一,缺乏大规模高质量的UHR T2I数据集;其二,针对UHR场景下细粒度细节合成的定制化训练策略研究不足。为解决首个挑战,我们推出包含10万张高分辨率图像的UltraHR-100K数据集,该数据集配备丰富标注文本,涵盖多样化内容并具备卓越视觉保真度。每张图像分辨率均超过3K,并基于细节丰富度、内容复杂度与美学质量进行严格筛选。针对第二个挑战,我们提出一种频率感知的后训练方法,可增强T2I扩散模型的精细细节生成能力。具体而言,我们设计了(i)面向细节的时序步长采样(DOTS)机制,将学习重点集中于细节关键的降噪步骤;(ii)软加权频率正则化(SWFR)方法,通过离散傅里叶变换(DFT)对频率分量进行柔性约束,促进高频细节保留。在我们提出的UltraHR-eval4K基准测试上的大量实验表明,该方法能显著提升UHR图像生成的细粒度细节质量与整体保真度。相关代码已发布于https://github.com/NJU-PCALab/UltraHR-100k。
函数调用(FC)能力使大语言模型(LLM)和智能体能够与外部工具交互,这是解决复杂现实问题的关键能力。随着该能力在先进AI系统中日益重要,对高质量多轮对话训练数据来开发和完善该能力的需求不容忽视。现有数据合成方法(如随机环境采样或多智能体角色扮演)在现实环境中难以生成高质量数据。实际挑战主要体现在三个方面:定向模型训练、工具架构的隔离性以及多轮逻辑依赖性。为弥补这些结构性缺陷,我们提出FunReason-MT——一个面向现实世界多轮工具使用的新型数据合成框架。该框架通过三大创新突破多轮FC数据的复杂度壁垒:1)采用环境-API图交互机制收集多样化高质量轨迹;2)通过高级工具查询合成技术简化复杂查询构建;3)利用引导式迭代链实现精细化的思维链生成。在伯克利函数调用排行榜(BFCLv3)上的评估表明:基于FunReason-MT生成数据训练的40亿参数模型,在同等规模模型中达到最优性能,甚至超越多数闭源模型。在BFCLv4上的进一步性能提升证实,FunReason-MT为智能体学习提供了可靠且鲁棒的数据支撑。
思维链推理对于提升大型视觉语言模型的可解释性与可靠性至关重要。然而现有训练算法如SFT、PPO和GRPO在未见过推理任务上的泛化能力有限,且高度依赖存在偏差的奖励模型。为解决这一难题,我们将LVLM的推理重新定义为后验推断问题,并提出基于摊销变分推断的可扩展训练算法。通过采用多样性探索的强化学习算法,我们设计了一种新型稀疏奖励函数,该函数能提供词元级学习信号以激励多样化、高似然度的潜在思维链,从而突破确定性采样的局限并避免奖励黑客行为。此外,我们实现了贝叶斯推断缩放策略,通过边际似然替代计算成本高昂的N选优和束搜索方法,高效筛选最优推理路径与答案。实证研究表明,该方法在七个推理基准测试中全方位提升了先进LVLM模型的有效性、泛化能力和可解释性。
随着大型视觉语言模型(LVLM)在购物、健康、新闻等领域的广泛应用,它们正面临无处不在的 persuasive 内容。一个关键问题在于这些模型作为被说服对象如何运作——即它们为何及如何受到多模态 persuasive 信息的影响。理解模型对 persuasion 的易感性与不同 persuasive 策略的有效性至关重要,因为过度易受影响的模型可能采纳误导性信念、覆盖用户偏好,或在接触操纵性信息时生成不道德或不安全的输出。我们提出MMPersuade这一统一框架,用于系统研究LVLM中的多模态 persuasion 动态。该框架包含两大贡献:(i)一个综合多模态数据集,将图像和视频与商业、主观行为及对抗场景中成熟的 persuasion 原则相配对;(ii)通过第三方一致性评分和基于对话历史的自估计 token 概率,量化 persuasion 有效性与模型易感性的评估框架。我们对六种主流LVLM作为被说服对象的研究揭示三大发现:(i)与纯文本相比,多模态输入显著提升 persuasion 有效性(及模型易感性),在错误信息场景中尤为明显;(ii)预先声明的偏好会降低易感性,但多模态信息仍保持其 persuasive 优势;(iii)不同策略在不同场景中效果各异,互惠原则在商业和主观场景中最有效,而可信度与逻辑性在对抗场景中占主导。通过联合分析 persuasion 有效性与模型易感性,MMPersuade为开发能够稳健处理 persuasive 多模态内容、保持偏好一致且符合伦理规范的模型奠定了理论基础。
在构件层面理解物体是推动计算机视觉、图形学和机器人技术发展的基础。尽管PartNet等数据集推动了三维部件理解的发展,但其依赖无纹理几何体和专家标注的特性限制了可扩展性和可用性。我们推出新一代数据集PartNeXt,通过5大类别下超过23,000个高质量带纹理三维模型及其细粒度层次化部件标注,有效解决了这些局限性。我们在两项任务上对PartNeXt进行基准测试:(1)类别无关部件分割——现有前沿方法(如PartField、SAMPart3D)在处理细粒度和末端级部件时表现不佳;(2)三维部件中心问答——这个针对3D-LLMs的新基准揭示了开放词汇部件定位领域的显著不足。此外,基于PartNeXt训练的Point-SAM模型相比PartNet实现显著性能提升,印证了该数据集在质量与多样性方面的优越性。通过融合可扩展标注、纹理感知标签和多任务评估,PartNeXt为结构化三维理解研究开辟了新途径。
大型语言模型(LLMs)已证明大规模预训练能使系统在语言领域以极少监督快速适应新问题。然而这一成功尚未有效迁移至视觉领域——包括LLMs在内的模型仍在组合理解、样本效率和通用问题解决方面存在不足。我们探究视频扩散模型(VDMs)作为弥合这一差距的潜在方向。时空数据预训练赋予此类模型对结构与动态的强归纳偏置,我们推测这种特性可支撑广泛的任务适应性。为验证此假设,我们设计受控实验:为预训练LLM和预训练VDM分别配备轻量级适配器,使其处理各自模态的本征任务。在ARC-AGI、ConceptARC、视觉游戏、路径规划和元胞自动机等基准测试中,VDMs展现出优于语言模型的数据效率。综合结果表明,视频预训练提供的归纳偏置有望推动视觉基础模型的发展。
生成式模型在根據簡短文字描述合成高保真音頻方面已取得顯著進展。然而,利用自然語言編輯現有音頻的研究仍處於探索不足的狀態。現有方法要么需要完整描述編輯後的音頻,要么受限于預定義的編輯指令而缺乏靈活性。本研究提出SAO-Instruct模型,該模型基於Stable Audio Open架構,能夠使用任意自由形式的自然語言指令編輯音頻片段。為訓練模型,我們結合Prompt-to-Prompt、DDPM反演技術與人工編輯流程,構建了包含音頻編輯三元組(輸入音頻、編輯指令、輸出音頻)的數據集。儘管部分訓練數據為合成生成,我們的模型對真實場景音頻片段和未見過的編輯指令均展現出良好的泛化能力。實驗表明,SAO-Instruct在客觀指標上達到競爭性水準,並在主觀聽感測試中優於其他音頻編輯方法。為推動後續研究,我們公開了代碼與模型權重。
在當今快速擴展的數據環境中,從非結構化文本中提取知識對於實時分析、時序推理和動態記憶框架至關重要。然而,傳統靜態知識圖譜的構建往往忽略現實世界數據的動態性和時效性,限制了對持續變化的適應能力。此外,近期避免領域特定微調或依賴預構本體的零樣本/少樣本方法,普遍存在多次運行結果不穩定及關鍵事實覆蓋不全的問題。為應對這些挑戰,我們提出ATOM(自適應優化型)方法——一種可擴展的少樣本方案,能從非結構化文本構建並持續更新時序知識圖譜。該方法將輸入文檔拆分為最小化的自包含"原子"事實,提升提取的完整度與穩定性;隨後通過區分信息觀測時間與有效時間的雙重時間建模,從這些事實構建原子時序知識圖譜,最終進行並行融合。實證評估表明,相較基準方法,ATOM實現了約18%的完整度提升、約17%的穩定性改善及超過90%的延遲降低,展現出動態構建時序知識圖譜的強大擴展潛力。
前沿人工智能代理作为科研助手的潜力日益显现,未来或能胜任长期开放式的科研工作流程。然而要将代理应用于创新性研究,我们首先需要评估其工作的底层忠实度与正确性。为此我们推出ReplicationBench评估框架,通过测试代理能否复现天体物理学领域的研究论文来评估其科研助手能力。天体物理学研究高度依赖档案数据和计算研究,几乎无需实体实验,恰好为科研AI代理提供了理想的试验场。我们将每篇论文分解为多个任务,要求代理复现论文的核心贡献,包括实验设置、公式推导、数据分析和代码库重建。每个任务均由原论文作者参与设计,聚焦关键科学结论,从而实现对忠实度(遵循原方法的程度)和正确性(结果的技術准确性)的客观评估。ReplicationBench对当前前沿语言模型极具挑战性:即使表现最佳的模型得分也低于20%。通过与领域专家合作分析任务执行轨迹,我们发现了科研代理存在丰富多样的失败模式。该基准首次建立了经专家验证的论文级天体物理研究任务标准,揭示了可推广至其他数据驱动科学领域的代理性能洞见,并为衡量AI代理在科研中的可靠性提供了可扩展的评估框架。
大型語言模型(LLMs)展現出令人憂慮的雙重性:既能實現卓越的泛化能力,又會對訓練數據產生脆弱且逐字記憶的現象。這種不可預測性削弱了其在高風險應用中的可靠性。本研究提出一個統一框架來理解、識別並控制這兩種不同的推理模式。首先,我們基於信息瓶頸(IB)原理建立理論模型,將泛化形式化定義為對壓縮化任務相關表徵的學習,而將記憶視為壓縮失敗的表現。在此理論基礎上,我們開發了動態模式導向(DMS)——一種新型推理時算法,包含兩個組件:(1)輕量級的因果線性探測器,用於實時識別模型對記憶機制的瞬時依賴;(2)動態激活導向機制,將模型計算過程引導至預先識別的泛化迴路。我們將DMS框架定義為一種自適應的對比解碼形式。在推理任務和真實性任務上的實驗表明,DMS能顯著提升邏輯一致性和事實準確性,從而為增強LLM可靠性提供了理論嚴謹的解決方案。
视觉-语言表征的对齐赋予当前视觉-语言模型(VLMs)强大的多模态推理能力。然而,由于难以将多模态表征的语义映射到统一概念集,该对齐组件的可解释性仍未得到充分研究。为解决此问题,我们提出VL-SAE——一种将视觉-语言表征编码至隐藏层激活的稀疏自编码器。其隐藏层中的每个神经元与由语义相似的图像和文本所表示的概念相关联,从而通过统一概念集解释这些表征。为建立神经元-概念关联,我们在自监督训练中促使语义相似的表征呈现一致的神经元激活。首先,为度量多模态表征的语义相似度,我们基于余弦相似度以显式形式实现其对齐;其次,构建具有距离编码器和两个模态专属解码器的VL-SAE,确保语义相似表征的激活一致性。在多个VLM(如CLIP、LLaVA)上的实验表明,VL-SAE在解释和增强视觉-语言对齐方面具有卓越能力。在解释层面,通过比较视觉与语言表征与概念的语义可理解其对齐关系;在增强层面,通过在概念层级对齐视觉-语言表征可强化对齐效果,从而提升零样本图像分类和幻象消除等下游任务性能。代码已发布于https://github.com/ssfgunner/VL-SAE。
医学视觉语言模型(V-LM)的可靠推理不仅需要精准预测,更需实现文本依据与视觉证据之间的透明对齐。尽管思维链(CoT)提示在医学视觉问答(VQA)中展现出潜力,但目前尚无大规模专家级数据集能通过精确视觉定位呈现渐进式推理。我们推出首个大规模专家标注数据集S-Chain,包含12,000张带有边界框和结构化视觉CoT(SV-CoT)的医学图像,明确将视觉区域与推理步骤相连接。该数据集进一步支持16种语言,总计超过70万组VQA问答对,具备广泛的多语言适用性。基于S-Chain,我们对前沿医学V-LM(ExGra-Med、LLaVA-Med)及通用V-LM(Qwen2.5-VL、InternVL2.5)进行基准测试,证明SV-CoT监督能显著提升模型可解释性、定位保真度与鲁棒性。除基准测试外,我们还探究其与检索增强生成的协同效应,揭示自回归推理过程中领域知识与视觉定位的交互机制。最后,我们提出一种新机制以强化视觉证据与推理的对齐,同步提升可靠性与效率。S-Chain为医学领域扎根推理树立了新基准,为构建更可信、可解释的医学V-LM开辟了道路。
结构拓扑优化(TO)是工程设计的核心环节,但由于复杂的物理场和硬约束条件,其计算强度始终居高不下。现有深度学习方法受限于固定方形网格、少量人工编码的边界条件以及事后优化模式,难以实现广泛部署。我们提出"任意拓扑优化"(OAT)基础模型框架,能够直接预测任意长宽比、分辨率、体积分数、载荷及固定约束条件下的最小柔度构型。OAT融合了分辨率无关/形状无关的自编码器、隐式神经场解码器,以及基于OpenTO数据集(包含220万个优化结构、覆盖200万种独特边界条件配置的新语料库)训练的隐空间条件扩散模型。在四个公开基准和两项高难度未知测试中,OAT相较于现有最优模型将平均柔度降低达90%,并在单GPU上实现64×64至256×256分辨率、最高10:1长宽比范围内的亚秒级推理。这些成果确立了OAT作为物理感知拓扑优化的通用、快速且分辨率无关的框架,并提供了大规模数据集以推动逆向设计中生成模型的进一步发展。代码与数据详见:https://github.com/ahnobari/OptimizeAnyTopology。
近期,基于GRPO的强化学习在优化流匹配模型方面取得显著进展,有效提升了模型与任务特定奖励的匹配度。这类框架通过重要性比率裁剪机制约束过度自信的正负梯度更新。然而实践中我们发现,重要性比率分布存在系统性偏移——其均值低于1且方差在不同时间步间差异显著。这种左偏且不稳定的分布阻止了正优势样本进入裁剪区域,导致机制无法有效约束过度自信的正向更新。因此策略模型不可避免地进入隐式过优化阶段:虽然代理奖励持续上升,但图像质量、文本提示对齐等关键指标急剧恶化,最终使学习到的策略无法实际应用。针对此问题,我们提出GRPO-Guard——一种对现有GRPO框架简单而有效的增强方案。该方法通过比率归一化技术重建平衡且步数一致的重要性比率,确保PPO裁剪机制能在去噪时间步中有效约束有害更新;同时采用梯度重加权策略均衡不同噪声条件下的策略梯度,防止特定时间步区域产生过度更新。这些设计共同构成受控裁剪机制,在避免沉重KL正则化的前提下稳定优化过程,显著缓解隐式过优化现象。基于多种扩散骨干网络(如SD3.5M、Flux.1-dev)和多样化代理任务的实验表明,GRPO-Guard在维持甚至提升生成质量的同时,能显著降低过优化现象。
專利文本嵌入技術能夠實現現有技術檢索、技術版圖繪製和專利分析,但現有基準測試未能充分捕捉專利領域的特有挑戰。我們推出PatenTEB綜合基準測試集,涵蓋檢索、分類、複述識別和聚類四大類共15項任務,包含206萬個實例。該基準採用領域分層劃分策略、領域特定難負例挖掘技術,並系統性覆蓋了通用嵌入基準所缺失的非對稱片段-文檔匹配場景。通過多任務訓練,我們構建了參數量從6700萬至3.44億、上下文長度達4096標記的patembed模型系列。外部驗證表明其具有強泛化能力:patembed-base模型在MTEB BigPatentClustering.v2任務上達到最先進水平(V-measure值0.494,超越原最佳結果0.445),而patembed-large模型在DAPFAM任務上實現0.377的NDCG@100指標。系統性消融實驗揭示:多任務訓練雖略微影響基準性能,但能顯著提升外部泛化能力;領域預訓練初始化在全部任務類別中均帶來持續優勢。所有資源將在https://github.com/iliass-y/patenteb 開源。 關鍵詞:專利檢索、句嵌入、多任務學習、非對稱檢索、基準評估、對比學習。
我们针对大型语言模型处理文化根植语言的能力进行了全面评估,重点考察其理解并实际运用蕴含地方知识与文化意蕴的比喻性表达的能力。通过以比喻语言作为文化意蕴与地方知识的表征指标,我们设计了针对阿拉伯语和英语的语境理解、语用实践及内涵解读三项评估任务。在对22个开源与闭源LLMs进行埃及阿拉伯语习语、多方言阿拉伯谚语及英语谚语的测试后,研究结果呈现出稳定层级:阿拉伯谚语平均准确率较英语谚语低4.29%,而埃及习语的表现又比阿拉伯谚语低10.28%。在语用实践任务中,准确率相较理解任务下降14.07%,但提供包含习语的语境语句可使准确率提升10.66%。模型在内涵意义理解方面亦存在困难,即使在标注者间一致性达100%的习语上,模型与人工标注的最大吻合度也仅为85.58%。这些发现表明比喻语言可作为文化推理的有效诊断工具:虽然LLMs常能解读比喻意义,但在恰当运用方面仍面临挑战。为支持后续研究,我们发布了Kinayat数据集——首个专为比喻理解与语用评估设计的埃及阿拉伯语习语资源。