每日精選AI研究論文及翻譯
我們推出STEP3-VL-10B,這款輕量級開源基礎模型旨在重新定義緊湊效率與前沿多模態智能之間的平衡。該模型通過兩大戰略轉型實現突破:首先採用統一且全參數解凍的預訓練策略,在1.2萬億多模態詞元上融合語言對齊的感知編碼器與Qwen3-8B解碼器,建立內在的視覺-語言協同;其次構建規模化後訓練管道,進行超過千次強化學習迭代。關鍵創新在於實施並行協調推理(PaCoRe)機制,通過動態分配計算資源實現可擴展的感知推理,探索並融合多元視覺假設。因此,儘管僅具備100億參數的緊湊架構,STEP3-VL-10B在性能上可媲美或超越規模10-20倍的模型(如GLM-4.6V-106B、Qwen3-VL-235B),並與Gemini 2.5 Pro、Seed-1.5-VL等頂級專有旗艦模型抗衡。其在MMBench獲得92.2%、MMMU達80.11%的頂尖成績,複雜推理任務表現尤為突出:AIME2025達94.43%,MathVision獲75.95%。我們完整開源模型套件,為學界提供強大、高效且可復現的基準系統。
作為人類活動的樞紐,城市地表蘊含豐富的語義實體。從衛星影像中分割這些多樣化實體對諸多下游應用至關重要。當前先進的分割模型能可靠地分割由物理屬性定義的實體(如建築物、水體),但在社會定義的類別(如學校、公園)上仍存在困難。本研究通過視覺語言模型推理實現了社會語義分割。為此,我們推出名為SocioSeg的城市社會語義分割數據集,該新資源包含衛星影像、數位地圖以及按層次結構組織的社會語義實體像素級標註。此外,我們提出創新的視覺語言推理框架SocioReasoner,通過跨模態識別與多階段推理模擬人類識別與標註社會語義實體的過程。我們採用強化學習優化這一不可微分流程,激發視覺語言模型的推理能力。實驗證明,相較於現有頂尖模型,我們的方法具有顯著優勢,並展現出強大的零樣本泛化能力。數據集與代碼公開於:https://github.com/AMAP-ML/SocioReasoner。
強化學習(RL)已成為大型語言模型(LLM)後訓練的核心範式,尤其在複雜推理任務中,但其常遭遇探索崩塌問題:策略過早集中於少數主導推理模式,雖能提升單次通過率(pass@1),卻限制了推演層級的多樣性與多次通過率(pass@k)的增益。我們認為此問題源於對局部詞元行為的規整化,而非對解決方案集合多樣性的考量。為此,我們提出「獨特性感知強化學習」——一種推演層級的目標函數,能明確獎勵展現罕見高階策略的正確解法。該方法基於LLM的評判器,將同一問題的推演結果按高階解決策略聚類(忽略表面差異),並依聚類規模反向調整策略優勢權重。如此,正確但新穎的策略將比冗餘策略獲得更高獎勵。在數學、物理和醫學推理基準測試中,本方法於大規模取樣預算下持續提升pass@k,並在維持pass@1的同時提高pass@k曲線下面積(AUC@K),同時保持探索能力,發掘出更多樣化的規模化解決策略。
多智能體系統已發展成為許多實際應用中由大型語言模型驅動的協作工具,其透過多樣性與交叉驗證獲得穩健性。然而,多智能體強化學習(MARL)訓練既耗費資源又不穩定:協作夥伴的相互適應會引發非平穩性,且獎勵通常稀疏且具有高方差。為此,我們提出多智能體測試時強化學習(MATTRL)框架,該框架在推理階段將結構化文本經驗注入多智能體審議過程。MATTRL組建由專業智能體構成的多專家團隊進行多輪討論,檢索並整合測試時經驗,最終達成共識進行決策。我們還研究用於構建輪次級經驗池的信用分配機制,並將其重新注入對話流程。在醫學、數學和教育領域的挑戰性基準測試中,MATTRL相較多智能體基線模型平均準確率提升3.67%,較可比單智能體基線提升8.67%。消融研究檢驗了不同信用分配方案,並詳細比較其對訓練結果的影響。MATTRL無需調參即可為分佈偏移魯棒的多智能體推理提供穩定、有效且高效的實現路徑。
基於指令的圖像編輯已成為生成式人工智慧領域發展最迅速的技術方向之一。過去一年間,該領域邁入新階段,數十個開源模型與高性能商業系統相繼問世。然而,目前僅有少量開源方案能達到實際應用所需的品質水準。此外,作為主流技術架構的擴散模型骨幹網路通常體積龐大、計算成本高昂,廣泛使用的變體往往包含60億至200億參數,對多數部署場景與研究環境構成挑戰。本文提出一種緊湊型高吞吐指令圖像編輯流程,採用現代化的20億參數Qwen3-VL模型指導編輯過程,並使用16億參數擴散模型Sana1.5進行圖像生成。我們在架構設計、數據處理、訓練配置與評估標準等方面均以低成本推理和嚴格源一致性為目標,同時在當前規模可實現的主要編輯類別中保持高品質輸出。在ImgEdit與GEdit基準測試中,本方法達到或超越了參數量數倍於此、推理成本更高的基線模型表現,尤其在需要保持輸入圖像特徵的編輯任務(如屬性調整、物件移除、背景編輯及定向替換)上表現突出。該模型僅需24GB GPU記憶體,在NVIDIA H100使用BF16精度時無需額外推理優化或蒸餾處理,即可於約4秒內生成最高2K解析度的編輯圖像。
科學人工智慧的核心挑戰不僅在於推理本身,更在於在開放式科學世界中創建計算方法的能力。現有基於大型語言模型的智慧體依賴靜態、預定義的工具庫,這種範式在工具稀缺、異質且本質不完整的科學領域從根本上難以適用。本文提出「推論期工具演化」新範式,使智慧體能在推理過程中合成、驗證並演化可執行工具。通過將工具從固定資源轉變為問題驅動的產物,TTE克服了靜態工具庫的僵化性與長尾局限性。為實現嚴謹評估,我們建立SciEvo基準數據集,包含1,590項科學推理任務及925個自動演化工具的支持。大量實驗表明,TTE在準確率與工具效率方面均達到最先進水平,同時實現了計算工具的有效跨領域適配。程式碼與基準數據集已開源於:https://github.com/lujiaxuan0520/Test-Time-Tool-Evol。
人工智慧向代理科學的進展,目前正面臨超長視野自主性這一瓶頸挑戰——即如何在橫跨數日或數週的實驗週期中,維持策略連貫性與迭代修正的能力。儘管大型語言模型在短視野推理方面展現實力,但在現實研究的高維度、延遲回饋環境中,它們極易被執行細節淹沒,難以將稀疏回饋整合為連貫的長期指導。本文提出ML-Master 2.0,一款掌握超長視野機器學習工程的自主代理,該領域正是科學發現的典型縮影。透過將情境管理重新定義為認知累積的過程,我們引入分層認知快取(HCC)——一種受計算機系統啟發的多層架構,能實現經驗隨時間推移的結構化分層。通過將瞬時執行軌跡動態提煉為穩定知識與跨任務智慧,HCC使代理能分離即時執行與長期實驗策略,有效突破靜態情境窗口的規模限制。在OpenAI的MLE-Bench進行24小時預算評估中,ML-Master 2.0以56.44%的獎牌率達到最先進水平。我們的研究證實,超長視野自主性為人工智慧提供可擴展的藍圖,使其能自主探索超越人類先例複雜度的領域。
視覺語言預訓練模型透過對比式預訓練從大規模圖像-文字對中學習,在多種下游任務中展現出強勁性能。隨著大規模英文圖像-文字資料集(如COYO-700M和LAION-400M)的發布,CLIP和SigLIP等模型已在跨模態檢索和圖像描述等任務中獲得廣泛應用。然而,由於高質量中文圖像-文字資料的匱乏,中文視覺語言預訓練的發展明顯滯後。為彌合這一差距,我們開發了一套完整的流程來構建高質量中文跨模態資料集。據此,我們提出包含1億個從Common Crawl收集的圖像-文字對的「丹青」資料集。與現有資料集不同,丹青透過更嚴格的篩選流程進行構建,具有更優的資料品質。此外,丹青主要基於2024-2025年的網路資料構建,能使模型更好地捕捉演進中的語義趨勢,從而具備更強的實用價值。我們通過對SigLIP2模型進行持續預訓練,將丹青與現有資料集進行比較。實驗結果表明,丹青在中文零樣本分類、跨模態檢索及基於LMM的評估等一系列下游任務中均持續取得更優性能。為推動中文視覺語言預訓練的進一步研究,我們將在創用CC BY 4.0許可協議下開源丹青資料集。
近期影片生成模型展現出幀序列推理能力的湧現,實現了逐幀視覺推演。憑藉此能力,影片模型已成功應用於多種視覺任務(如迷宮求解、視覺謎題)。然而,由於文本到圖像生成過程中缺乏明確的視覺推理起點與可解釋的中間狀態,其在增強文本到圖像生成方面的潛力仍未被充分探索。為此,我們提出CoF-T2I模型,通過漸進式視覺優化將幀序列推理融入文本到圖像生成流程,其中中間幀作為顯式推理步驟,最終幀作為輸出結果。為建立此顯式生成過程,我們構建了CoF-Evol-Instruct數據集,該數據集包含模擬從語義到美學生成過程的幀序列軌跡。為進一步提升質量並避免動態偽影,我們實現了對每幀的獨立編碼操作。實驗表明,CoF-T2I顯著超越基礎影片模型,並在挑戰性基準測試中達到競爭力表現——GenEval得分0.86,Imagine-Bench得分7.468。這些結果證實影片模型在推進高質量文本到圖像生成方面具有巨大潛力。
近期文字轉圖像(T2I)擴散模型(DMs)的進展已能根據多樣化文本提示生成高品質視覺內容。然而,現有大多數T2I擴散模型(包括配備大型語言模型(LLM)文本編碼器的版本)仍僅是文字-像素對應器——它們僅將LLM用作文本編碼器,未能利用其內在推理能力來推斷文本提示應對應的視覺呈現。為突破這種字面化生成模式,我們提出「先思考後生成」(T2G)範式,通過激勵基於LLM的文本編碼器對原始用戶提示進行推理與重寫,並將重寫後的提示狀態作為擴散條件。為實現此目標,我們首先透過輕量級監督微調激活LLM編碼器的「思考-重寫」模式,隨後採用Dual-GRPO協同優化LLM編碼器與擴散骨幹網絡,確保對上下文進行忠實推理並精準呈現語義。具體而言,文本編碼器通過基於圖像的獎勵強化來推斷與喚醒世界知識,而擴散骨幹則被驅動生成語義一致且視覺連貫的圖像。實驗結果顯示,在基於推理的圖像生成與編輯基準測試中,該方法在事實一致性、語義對齊和視覺真實性方面取得顯著提升,WISE分數達0.79,幾乎與GPT-4持平。我們的成果為構建具備推理、表達與演示能力的下一代統一模型邁出重要一步。
大规模视频扩散与流模型已在高质量视频生成领域取得显著成功,但由于其低效的多步采样过程,在实时交互应用中的使用仍受限。本研究提出过渡匹配蒸馏(TMD)框架,通过将视频扩散模型蒸馏为高效少步生成器来解决此问题。TMD的核心思想是将扩散模型的多步去噪轨迹与少步概率转移过程相匹配,其中每个转移步骤通过轻量级条件流模型实现。为实现高效蒸馏,我们将原始扩散主干网络分解为两个组件:(1)主主干网络(包含多数早期层),用于在外部转移步骤中提取语义表征;(2)流头部(由最后几层构成),利用这些表征执行多重内部流更新。给定预训练视频扩散模型,我们首先为其引入流头部,将其适配为条件流映射。随后在每步转移中结合流头部展开策略,对学生模型实施分布匹配蒸馏。基于Wan2.1 1.3B和140亿参数文生视频模型的广泛实验表明,TMD在生成速度与视觉质量间实现了灵活且优越的权衡。特别值得注意的是,在可比推理成本下,TMD在视觉保真度与提示词遵循度方面均优于现有蒸馏模型。项目页面:https://research.nvidia.com/labs/genair/tmd
工具整合推理(TIR)通过将推理步骤与外部工具调用交错执行,使大语言模型能够处理复杂任务。然而,现有的强化学习方法通常依赖结果级或轨迹级奖励,对轨迹中的所有步骤赋予均等优势。这种粗粒度的信用分配机制无法区分有效工具调用与冗余或错误调用,尤其在长周期多轮交互场景中更为突出。为此,我们提出MatchTIR框架,通过基于二分图匹配的轮次级奖励分配和双层级优势估计实现细粒度监督。具体而言,我们将信用分配建模为预测轨迹与真实轨迹之间的二分图匹配问题,采用两种分配策略推导稠密的轮次级奖励。此外,为平衡局部步骤精度与全局任务成功率,我们引入双层级优势估计机制,整合轮次级与轨迹级信号,为每个交互轮次分配差异化优势值。在三个基准测试上的大量实验证明了MatchTIR的优越性。值得注意的是,我们的40亿参数模型在多数任务上超越80亿参数竞品,尤其在长周期和多轮任务中表现突出。代码已开源:https://github.com/quchangle1/MatchTIR。
目前最强大的视频语言模型(VLMs)仍为专有技术。最强的开源权重模型要么依赖专有VLMs生成的合成数据(本质上是其知识蒸馏产物),要么未公开其训练数据与方案。这导致开源社区缺乏改进当前最先进视频(及图像)语言模型的基础。关键在于,许多下游应用不仅需要高层次视频理解能力,更需具备像素级的指向或追踪定位能力——即便是专有模型也尚未实现这一功能。我们推出Molmo2系列VLMs,该系列在开源模型中达到顶尖水平,并在单图像、多图像及视频任务中展现出卓越的新型指向定位能力。我们的核心贡献在于构建了7个新视频数据集与2个多图像数据集,包括用于预训练的高细节视频描述数据集、用于微调的自由形式视频问答数据集、含复杂查询的新物体追踪数据集,以及创新的视频指向数据集——所有数据均未使用闭源VLMs采集。我们还提出了采用高效打包与消息树编码方案的数据训练方法,证明视觉标记的双向注意力机制与新型标记权重策略可提升性能。我们的顶尖80亿参数模型在短视频、计数和描述任务上超越同类开源权重与数据模型,在长视频任务中表现相当。在视频定位方面,Molmo2显著优于Qwen3-VL等开源模型(视频计数准确率35.5对29.6),并在某些任务上超越Gemini 3 Pro等专有模型(视频指向F1分数38.4对20.0,视频追踪J&F分数56.2对41.1)。
我们提出Alterbute——一种基于扩散模型的图像物体本征属性编辑方法。该方法能够改变物体的颜色、纹理、材质甚至形状,同时保持其感知身份与场景上下文。现有方法要么依赖难以保持身份特征的无监督先验,要么采用过度严格的监督机制而限制了有意义的本质属性变化。我们的技术核心在于:(一)采用宽松的训练目标,使模型能根据身份参考图像、描述目标本征属性的文本提示、以及定义外在背景的背景图像与物体掩码,同时改变本征与非本征属性。在推理阶段,通过复用原始背景与物体掩码来限制非本征变化,从而确保仅目标本征属性被修改;(二)提出视觉命名实体(VNE)概念——即根据共享身份定义特征(如"保时捷911卡雷拉")划分的细粒度视觉身份类别,此类别允许本征属性存在差异。我们利用视觉语言模型从大型公共图像数据集中自动提取VNE标签和本征属性描述,实现了可扩展的身份保持监督。实验表明,Alterbute在保持物体身份的本征属性编辑任务上优于现有方法。
尽管基于大语言模型的智能体能够通过调用外部工具与环境交互,但其扩展能力也同时放大了安全风险。实时监控智能体在步骤层级的工具调用行为,并在不安全执行前主动干预,对于智能体部署至关重要,然而这一领域的研究仍显不足。本研究首先构建了TS-Bench——一个专用于大语言模型智能体工具调用安全检测的新型基准测试集。随后我们采用多任务强化学习开发了防护模型TS-Guard,该模型通过分析交互历史记录,能在执行前主动识别不安全的工具调用行为。它通过评估请求危害性及行为-攻击关联度,生成可解释、可泛化的安全判定与反馈。此外,我们提出TS-Flow这一基于防护反馈的驱动推理框架,该框架在提示注入攻击场景下,能将ReAct风格智能体的有害工具调用平均减少65%,并将良性任务完成率提升约10%。
大型语言模型(LLM)与多模态大语言模型(MLLM)的快速发展,显著提升了语言和视觉领域的推理、感知及生成能力。然而这些技术进步是否带来相应的安全性提升仍不明确,部分原因在于现有评估实践存在碎片化现象,仅局限于单一模态或威胁模型。本报告对GPT-5.2、Gemini 3 Pro、Qwen3-VL、Doubao 1.8、Grok 4.1 Fast、Nano Banana Pro和Seedream 4.5等7个前沿模型开展综合性安全评估。我们通过融合基准测试、对抗性评估、多语言评估与合规性评估的统一框架,在语言、视觉-语言及图像生成三种场景下对各模型进行测评。将多维评估结果汇总至安全排行榜和模型安全画像后,呈现出高度异质化的安全格局:GPT-5.2在所有评估中均展现出持续稳定且均衡的安全表现,而其他模型则在基准安全、对抗对齐、多语言泛化与法规合规性方面存在显著权衡。语言和视觉-语言模态在对抗性评估中均表现出明显脆弱性——尽管在标准基准测试中表现优异,所有模型在对抗攻击下均出现性能大幅下滑。文生图模型在受监管视觉风险类别中实现了相对更强的对齐性,但在对抗性提示或语义模糊提示下仍显脆弱。总体而言,研究结果表明前沿模型的安全性本质上是多维度的——其表现受模态、语言和评估方案共同影响,这凸显了建立标准化安全评估体系的必要性,以准确衡量现实风险并引导负责任的模型开发与部署。
从视觉观察中推断物理行为是推动机器智能在物理世界中发展的核心能力。实现这一目标需要涵盖广泛领域的大规模开放词汇视频动作数据集。我们推出Action100M数据集——该大规模数据集从120万条互联网教学视频(总时长14.6年)构建而成,生成约1亿个具有开放词汇动作标注和丰富文本描述的时间定位片段。Action100M通过全自动流程生成,该流程(i)使用V-JEPA 2嵌入进行分层时间分割,(ii)生成组织为"描述树"的多层级帧与片段描述,(iii)通过推理模型(GPT-OSS-120B)在多轮自优化程序下聚合证据,输出结构化标注(简要/详细动作、行为主体、简要/详细描述)。在Action100M上训练VL-JEPA模型显示出持续的数据规模效益,并在多样化的动作识别基准测试中表现出强大的零样本性能,这使Action100M成为视频理解与世界建模领域可扩展研究的新基石。
交互式人形视频生成旨在合成能够通过连续响应式视频与人类互动的逼真视觉智能体。尽管视频合成技术近期取得进展,现有方法仍难以兼顾高保真合成与实时交互需求。本文提出FlowAct-R1框架,专为实时交互式人形视频生成设计。该框架基于MMDiT架构,可实现任意时长的流式视频合成,同时保持低延迟响应特性。我们引入分块扩散强制策略,并结合新型自强制变体,以缓解持续交互过程中的误差累积问题,确保长期时间一致性。通过高效蒸馏与系统级优化,本框架在480p分辨率下可实现稳定25fps生成速率,首帧生成时间仅约1.5秒。所提方法提供整体化与细粒度结合的全肢体控制,使智能体能在交互场景中自然过渡不同行为状态。实验结果表明,FlowAct-R1在保持跨角色风格鲁棒泛化能力的同时,实现了卓越的行为生动性与感知真实度。
我们推出了一系列开源音乐基础模型,旨在推动跨任务与多模态的大规模音乐理解与生成。该框架包含四大核心组件:(1)HeartCLAP音频-文本对齐模型;(2)HeartTranscriptor面向真实音乐场景优化的强健歌词识别模型;(3)HeartCodec低帧率(12.5 Hz)高保真音乐编解码器,在捕捉长程音乐结构的同时保留细粒度声学细节,并支持高效自回归建模;(4)HeartMuLa基于大语言模型的歌曲生成模型,可在丰富用户可控条件下(如文本风格描述、歌词及参考音频)合成高保真音乐。此外,该模型提供两种专项模式:(i)细粒度音乐属性控制,允许用户通过自然语言指令指定不同歌曲段落(如前奏、主歌、副歌)的风格;(ii)短时长趣味音乐生成,适用于短视频背景音乐场景。值得注意的是,HeartMuLa在扩展至70亿参数时性能显著提升。我们首次证明利用学术级数据与GPU资源即可复现Suno级别的商业级系统。期待这些基础模型能为未来研究提供强基准,并推动多模态内容生产的实际应用。
大型语言模型(LLMs)已成为进化搜索的强大执行者,但高效搜索框架的设计仍处于零散状态。尽管现有LLM参与循环的系统展现出潜力,却缺乏管理进化过程的系统性方法。我们识别出三种典型失效模式:语境污染(实验历史偏差影响后续候选生成)、模式坍塌(智能体因探索-利用失衡陷入局部最优)、以及弱协作(僵化的交叉策略无法有效利用并行搜索轨迹)。为此,我们提出进展感知一致进化框架(PACEvolve),通过稳健管控智能体的语境与搜索动态来解决这些挑战。该框架融合层级化语境管理(HCM)与剪枝策略应对语境污染;采用动量回溯(MBB)机制逃离局部最优;并通过自适应采样策略统一回溯与交叉操作,实现动态搜索协调(CE),使智能体能平衡内部优化与跨轨迹协作。实验表明,PACEvolve为持续长程自我改进提供了系统化路径,在LLM-SR和KernelBench基准上达到顶尖水平,并在Modded NanoGPT任务上发现了超越现有记录的解决方案。
生成满足多种理化特性精确数值约束的分子至关重要且充满挑战。尽管大语言模型(LLM)具有强表达能力,但在缺乏外部结构和反馈的情况下,它们难以实现精确的多目标控制和数值推理。我们提出M olGen——一个基于分子片段、检索增强的双阶段多属性约束分子生成框架。第一阶段:原型生成,多智能体推理器执行检索锚定的片段级编辑,生成接近可行域的候选分子;第二阶段:基于强化学习的细粒度优化,通过群组相对策略优化(GRPO)训练的片段级优化器实施单跳或多跳优化,在调控编辑复杂度与原型偏离度的同时,显式最小化目标属性误差。支撑这两个阶段的是一个大型自动构建的数据集,其中包含片段编辑的推理链及实测属性增量,实现了确定性、可复现的监督控制与可控多跳推理。与现有研究不同,本框架通过利用分子片段实现了更优的分子推理能力,并支持针对数值目标的可控优化。在两组属性约束(QED、LogP、分子量以及HOMO、LUMO)下的生成实验表明,该方法在分子有效性和多属性目标精确满足度上均取得稳定提升,性能优于主流大语言模型与基于图结构的算法。
当前顶尖的视频生成模型虽能产出视觉效果出色的内容,却常违背基础物理定律,限制了其实用性。尽管有观点认为这一缺陷源于预训练阶段对物理规律理解不足,但我们发现物理合理性的缺失还源于次优的推理策略。为此,我们提出WMReward方法,将提升视频生成的物理合理性视为推理阶段的对齐问题。具体而言,我们利用潜在世界模型(本文采用VJEPA-2)的强物理先验作为奖励函数,通过搜索并引导多条候选去噪轨迹,实现测试阶段计算资源的灵活扩展以提升生成性能。实验表明,该方法在图像条件生成、多帧条件生成及文本条件生成三大场景中均显著提升物理合理性,并通过人类偏好研究验证了有效性。值得注意的是,在ICCV 2025感知测试物理智商挑战赛中,我们以62.64%的最终得分夺得冠军,较先前最优结果提升7.42%。本研究证明了利用潜在世界模型提升视频生成物理合理性的可行性,其价值超越特定模型实例或参数化方法。
统一图像生成与编辑模型在稠密扩散变换器架构中面临严重的任务干扰问题,共享参数空间必须在相互冲突的目标(如局部编辑与主体驱动生成)之间做出妥协。虽然稀疏混合专家范式是颇具前景的解决方案,但其门控网络仍保持任务无关性——仅基于局部特征运作,无法感知全局任务意图。这种任务无关特性阻碍了有意义的专业化,未能从根本上解决任务干扰问题。本文提出了一种将语义意图注入MoE路由的新框架:通过分层任务语义标注方案构建结构化任务描述符(如作用范围、任务类型、内容保留要求),并设计预测对齐正则化方法使内部路由决策与高层任务语义对齐。该正则化使门控网络从任务无关执行器演进为智能调度中心。实验表明,我们的模型有效缓解了任务干扰,在保真度与生成质量上超越稠密基线,分析结果证实专家网络会自然形成清晰且语义关联的专业化分工。
指令遵循对大型语言模型至关重要,但现实指令常包含顺序依赖和条件分支等逻辑结构。现有方法通常构建带并行约束的数据集并优化平均奖励,忽略了逻辑依赖关系并产生噪声信号。我们提出逻辑结构化训练框架LSRIF,显式建模指令逻辑:先构建包含并行、顺序、条件等约束结构的LSRInstruct数据集,再设计结构感知奖励方法,包括并行结构的平均聚合、顺序结构的失败惩罚传播、条件分支的选择性奖励。实验表明LSRIF在指令遵循(域内/域外)和通用推理上取得显著提升。分析发现,显式逻辑结构学习能引发注意力层的参数更新,并增强对约束条件和逻辑运算符的token级关注聚焦。
在财报电话会议中检测规避性回答对提升财务透明度至关重要,但大规模标注数据集的缺乏制约了研究进展。我们推出EvasionBench数据集,包含3万个训练样本和1000个人工标注测试样本(科恩卡帕系数0.835),涵盖三个规避等级。本研究核心贡献在于提出多模型标注框架,其关键洞见是:前沿大语言模型之间的分歧标注信号能识别出最具训练价值的困难样本。通过挖掘两个强标注模型产生冲突的边界案例,并引入裁判模型确定最终标签,该方法比单模型蒸馏策略准确率提升2.4%。尽管裁判裁定样本的训练损失更高(0.421对比0.393),但其提升的泛化能力证明分歧挖掘机制发挥了隐式正则化作用。基于此训练的Eva-4B模型(40亿参数)达到81.3%的准确率,较基础模型提升25个百分点,仅以微小推理成本逼近前沿大语言模型性能。
当前多模态潜在推理常依赖外部监督(如辅助图像),忽略了内在的视觉注意力动态机制。本研究揭示了知识蒸馏中存在的关键性感知鸿沟:学生模型往往在关注完全不同的视觉区域时模仿教师的文本输出,实质上依赖的是语言先验而非具身感知。为弥合这一鸿沟,我们提出LaViT框架,通过对齐潜在视觉思维而非静态嵌入表示。LaViT采用课程式感官门控机制,强制学生在文本生成前自回归地重构教师的视觉语义与注意力轨迹,从而规避捷径学习。大量实验表明,LaViT显著增强了视觉基础能力,在复杂推理任务上实现最高16.9%的性能提升,使紧凑的30亿参数模型能够超越更大规模的开源变体及GPT-4o等专有模型。
诸如DUSt3R不变点图这类强大的三维表征技术,通过编码三维形状与相机参数,显著推进了前馈式三维重建的发展。虽然点图技术默认处理静态场景,但动态点图(DPM)通过额外表征场景运动,将这一概念拓展至动态三维内容。然而现有DPM仅适用于图像对,且与DUSt3R类似,在处理超过两个视角时仍需通过优化进行后处理。我们认为将DPM应用于视频场景更具实用价值,并由此提出V-DPM予以验证。首先,我们阐释如何构建适用于视频输入的DPM框架,以实现表征能力最大化、神经网络预测便捷化及预训练模型复用化。其次,基于近期强大的三维重建器VGGT实现这些构想。尽管VGGT原针对静态场景训练,但我们证明仅需适量合成数据即可将其转化为高效的V-DPM预测器。本方法在动态场景的三维与四维重建中达到业界最优性能。特别值得注意的是,相较于VGGT近期动态扩展方案(如P3),DPM不仅能重建动态深度,还能完整还原场景中每个点的三维运动轨迹。
近期,提升大语言模型(LLMs)的推理能力持续成为研究热点。然而现有工作大多基于轨迹层面的结果奖励,缺乏对推理过程的细粒度监督。其他试图融合过程信号来优化LLMs的训练框架,也严重依赖蒙特卡洛树搜索(MCTS)、训练独立奖励模型等繁琐附加步骤,降低了训练效率。此外,过程信号设计的理论依据不足,导致优化机制的理解仍不清晰。本文提出过程奖励学习(PRL)方法,将熵正则化的强化学习目标分解至中间推理步骤,并通过严格推导的过程奖励对模型进行逐级优化。我们从理论动机出发,推导出与"奖励最大化+策略模型与参考模型间KL散度惩罚项"目标本质等效的PRL formulation。但PRL能将结果奖励转化为过程监督信号,更好指导RL优化过程中的探索行为。实验结果表明,PRL不仅能通过平均@n指标提升LLMs推理能力的整体表现,还能通过改进pass@n指标拓宽推理能力边界。大量实验验证了PRL方法的有效性和泛化性。
尽管四维生成、骨骼绑定与运动模拟领域已取得显著进展,动画的核心结构与动态组件通常仍被作为独立问题处理。现有流程依赖真实骨骼与蒙皮权重进行运动生成,并将自动骨骼绑定视为独立过程,这削弱了系统的可扩展性与可解释性。我们提出RigMo这一统一生成框架,能够直接从原始网格序列中联合学习骨骼绑定与运动数据,无需任何人工提供的骨骼标注。RigMo将逐顶点变形编码至两个紧凑的潜在空间:解码为显式高斯骨骼与蒙皮权重的骨骼潜在空间,以及生成时变SE(3)变换的运动潜在空间。这些输出共同定义了具有显式结构和连贯运动轨迹的可动画网格,实现了可变形物体的前向式骨骼与运动推断。除统一化的骨骼-运动发现外,我们还在RigMo潜在空间中引入Motion-DiT模型,证明这些结构感知的潜在表示能自然支持下游运动生成任务。在DeformingThings4D、Objaverse-XL和TrueBones数据集上的实验表明,RigMo可学习到平滑、可解释且物理合理的骨骼系统,同时在重建效果与类别级泛化能力上超越现有自动骨骼绑定与形变基线方法。RigMo为统一化、结构感知且可扩展的动态三维建模建立了新范式。
角色扮演(RP)智能体依赖行为配置文件在不同叙事情境中保持行为一致性,但现有配置文件大多为非结构化、不可执行且缺乏有效验证,导致智能体行为脆弱易变。我们提出编码决策树(CDT)这一数据驱动框架,能够从大规模叙事数据中归纳出可执行且可解释的决策结构。CDT将行为配置文件表示为条件规则树:内部节点对应经过验证的场景条件,叶节点编码具体行为陈述,从而在执行时实现上下文适配规则的确定性检索。该框架通过迭代归纳候选场景-动作规则、进行数据验证及层级细化来构建决策树,最终形成支持透明检视与原则性更新的配置文件。在涵盖16个叙事作品的85个角色测试中,CDT在多项基准测试上显著优于人工编写配置文件及先前的配置文件归纳方法,表明经过编码与验证的行为表征能实现更可靠的智能体行为锚定。
现实世界的临床文本转SQL任务需要基于异构电子健康记录表、时间窗口及患者相似性队列进行推理,以生成可执行查询。我们推出CLINSQL基准测试集,包含基于MIMIC-IV v3.1的633项专家标注任务,要求实现多表连接、临床意义筛选及可执行SQL生成。解决CLINSQL需驾驭模式元数据与临床编码系统,处理长上下文语境,并构建超越传统文本转SQL的多步骤查询。我们在思维链自优化框架下评估22个专有与开源模型,采用基于量规的SQL分析与执行验证机制,优先保障关键临床需求。尽管技术持续进步,模型表现仍远未达到临床可靠性标准:测试集中GPT-5-mini执行准确率达74.7%,DeepSeek-R1以69.2%领跑开源模型,Gemini-2.5-Pro从简单题的85.5%骤降至难题的67.2%。CLINSQL的进展标志着面向真实世界电子健康记录分析的临床可靠文本转SQL技术取得了实质性突破。
AI智能体框架的兴起带来了智能体技能——这种包含指令与可执行代码的模块化组件能动态扩展智能体能力。尽管该架构支持强大的定制化功能,但技能在执行时默认享有隐式信任且缺乏严格审查,形成了重要却未被充分认知的攻击面。我们针对这一新兴生态开展了首次大规模实证安全分析,从两大主流市场收集了42,447项技能,并运用SkillScan多阶段检测框架(整合静态分析与基于LLM的语义分类)系统检测了31,132项技能。研究发现普遍存在安全风险:26.1%的技能存在至少一种漏洞,涵盖提示词注入、数据窃取、权限提升和供应链风险四大类共14种攻击模式。数据窃取(13.3%)和权限提升(11.8%)最为普遍,5.2%的技能呈现出强烈暗示恶意意图的高危模式。分析显示,捆绑可执行脚本的技能存在漏洞的概率是纯指令技能的2.12倍(OR=2.12, p<0.001)。本研究的贡献包括:(1)基于8,126个漏洞技能构建的实证漏洞分类体系;(2)经验证达到86.7%精确率与82.5%召回率的检测方法;(3)支持后续研究的开源数据集与检测工具包。这些结果表明,在此攻击向量被大规模利用前,亟需建立基于能力的权限系统与强制性安全审查机制。
本研究探讨如何通过提示工程优化大型语言模型(LLMs)——特别是GPT-4o-mini与gemini-1.5-flash——在情感分析任务中的表现。通过对比基线方法,评估了小样本学习、思维链提示及自我一致性等先进提示技术的效果。核心任务涵盖情感分类、基于方面的情感分析以及反讽等细微情感差异的识别。研究详细阐述了理论背景、数据集与实验方法,并以准确率、召回率、精确率和F1分数为指标评估模型性能。研究发现:先进提示技术能显著提升情感分析效果,其中小样本提示在GPT-4o-mini中表现最优,而思维链提示使gemini-1.5-flash的反讽检测能力最高提升46%。这表明,尽管先进提示技术能整体提升性能,但针对GPT-4o-mini需采用小样本提示,而gemini-1.5-flash的反讽检测更适合思维链提示,因此提示策略必须根据模型与任务特性进行定制。这一发现凸显了提示设计需同时契合LLM架构与任务语义复杂度的双重重要性。
基于特征扰动的一致性学习是半监督医学图像分割中广泛采用的策略。然而,现有扰动方法多依赖于dropout机制,需谨慎手动调整丢弃率这一敏感超参数,该参数不仅难以优化,还可能导致次优的正则化效果。为突破此局限,我们提出VQ-Seg方法:首次采用向量量化(VQ)技术离散化特征空间,并设计可控制的量化扰动模块(QPM)以取代dropout。QPM通过重排码本索引的空间位置实现对离散表征的扰动,从而达成高效可控的正则化。为缓解量化可能造成的信息损失,我们设计了双分支架构,使图像重建与分割任务共享量化后的特征空间。此外,引入后量化特征适配器(PFA)融合基础模型(FM)的指导信息,以补充量化过程中损失的高层语义特征。我们还构建了包含828例中央型肺癌标注CT扫描的大规模肺癌(LC)数据集。在LC数据集及多个公开基准上的实验表明,本方法性能优于现有最优方案。代码已开源:https://github.com/script-Yang/VQ-Seg。
AI智能体易受提示注入攻击,恶意内容可通过劫持智能体行为窃取凭证或造成经济损失。目前唯一已知的有效防御方案是采用架构隔离策略,将可信任务规划与不可信环境观察严格分离。然而将该设计应用于计算机使用智能体(CUAs)——即通过观察屏幕并执行操作来实现任务自动化的系统——存在根本性挑战:现有智能体需持续观察用户界面状态以确定每个动作,这与安全所需的隔离要求相冲突。我们通过论证用户界面工作流虽具动态性但结构可预测,成功化解了这一矛盾。本文提出单次规划框架,使可信规划器在接触任何潜在恶意内容前,即可生成包含条件分支的完整执行图谱,从而针对任意指令注入提供可验证的控制流完整性保障。尽管架构隔离能有效防范指令注入,但我们发现仍需额外措施来防御分支导向攻击——该攻击通过操纵界面元素触发计划内的非预期有效路径。我们在OSWorld环境中的评估表明,该方案在保持前沿模型57%性能的同时,可将小型开源模型的性能提升达19%,有力验证了CUA系统可实现严格安全性与实用性的统一。
我们提出WildRayZer——一种用于动态环境(相机与物体皆可移动)中新颖视角合成的自监督框架。动态内容会破坏静态NVS模型所依赖的多视角一致性,导致重影、虚幻几何和不稳定的姿态估计。WildRayZer通过执行分析-合成测试解决此问题:仅考虑相机运动的静态渲染器解析刚性结构,其残差则揭示瞬变区域。基于这些残差,我们构建伪运动掩码、蒸馏出运动估计器,并利用其掩码输入令牌及门控损失梯度,使监督聚焦于跨视角背景补全。为实现大规模训练与评估,我们构建了Dynamic RealEstate10K(D-RE10K)——包含1.5万段随意拍摄动态序列的真实数据集,以及配对的瞬变/干净基准D-RE10K-iPhone,用于稀疏视角的瞬变感知NVS。实验表明,WildRayZer在单次前向传播中,无论是瞬变区域消除还是全帧NVS质量,均持续优于基于优化的前馈基线方法。
大型语言模型(LLMs)常表现出斜线注意力模式,即注意力分数会沿着某个偏移量Δ对应的第Δ条次对角线集中分布。这种模式在跨令牌信息传递中起着关键作用,但其形成机制尚不明确。本文从实证与理论双重视角揭示了这类斜线主导注意力头(SDHs)的涌现机制。首先,通过分析开源LLMs,我们发现SDHs是模型固有特性,并能泛化至分布外提示。为解释其内在涌现规律,我们分析了共同决定注意力分数的查询向量、键向量及旋转位置编码(RoPE)。实证研究表明SDHs具有两个特征条件:(1)查询向量与键向量几乎呈秩一特性;(2)RoPE由中高频分量主导。在此条件下,各令牌的查询向量与键向量近乎一致,而RoPE中高频分量间的相互作用催生了SDHs。除实证证据外,我们通过将上述条件形式化为建模假设,从理论上证明了这些条件足以保证SDHs的涌现。特别地,我们分析了满足这些条件的浅层Transformer模型在RoPE作用下的训练动态,并证明经梯度下降训练的模型必然呈现SDHs特性,且该特性可泛化至分布外提示。
大型语言模型(LLM)已成为诸多日常应用的核心技术。然而随着数据动态演进,其知识体系会快速过时。持续学习旨在为LLM注入新信息的同时保留既有知识。尽管全参数微调等方法能够整合新数据,但其计算成本高昂且易引发灾难性遗忘——即旧有知识被覆盖的问题。基于记忆增强的方法通过为LLM配备记忆库(即存储信息以供后续调用的外部记忆模块)来解决这一难题。但这类方法存在关键局限:当现实场景中出现大规模数据流时,记忆库会持续膨胀。本文提出MBC模型,该模型通过在线自适应学习期间的码本优化策略实现记忆库压缩。为确保学习稳定性,我们还引入了在线重置机制以防止码本坍缩。此外,我们在LLM的注意力层采用键值低秩自适应技术,从而高效利用压缩后的记忆表征。基于基准问答数据集的实验表明,与最具竞争力的基线方法相比,MBC可将记忆库体积压缩至0.3%,同时在线自适应学习期间保持高记忆保持准确率。代码已开源于https://github.com/Thomkat/MBC。