每日精选AI研究论文及翻译
随着高质量公开文本趋于枯竭(即“数据墙”现象),预训练正从追求更多标记转向寻求更优标记。然而现有方法要么依赖忽略训练动态的启发式静态过滤器,要么采用基于原始梯度但脱离优化器的动态标准。我们提出OPUS(优化器驱动的投影效用选择框架),这一动态数据选择框架将效用定义在优化器驱动的更新空间中。OPUS通过将现代优化器塑造的有效更新投影到源自稳定同分布代理的目标方向上,对候选数据进行评分。为确保可扩展性,我们采用Ghost技术与CountSketch实现计算高效性,并通过玻尔兹曼采样保障数据多样性,仅产生4.7%的额外计算开销。OPUS在多样化语料库、质量层级、优化器和模型规模上均取得显著成果。在FineWeb与FineWeb-Edu数据集上对GPT-2 Large/XL进行300亿标记的预训练时,OPUS不仅超越工业级基线,甚至优于完整2000亿标记的训练效果。当与工业级静态过滤器结合时,OPUS能进一步提升预训练效率,即使面对低质量数据亦然。此外,在SciencePedia上对Qwen3-8B-Base进行持续预训练时,OPUS仅用50亿标记就达到30亿标记完整训练的更优性能,展现了在专业领域显著的数据效率提升。
自主GUI代理通过感知界面并执行操作与环境交互。作为虚拟沙盒,GUI世界模型通过支持条件动作预测使代理具备类人预见能力。然而现有基于文本和像素的方法难以同时实现高视觉保真度与细粒度结构可控性。为此,我们提出Code2World——一种通过可渲染代码生成模拟下一视觉状态的视觉语言编码器。具体而言,为解决数据稀缺问题,我们构建了AndroidCode数据集:将GUI轨迹转换为高保真HTML代码,并通过视觉反馈修正机制优化合成代码,最终获得包含8万+高质量屏幕-动作对的数据集。为适配现有VLM进行代码预测,我们首先执行SFT作为格式布局跟随的冷启动,进而应用渲染感知强化学习——以渲染结果作为奖励信号,强化视觉语义保真度与动作一致性。大量实验表明,Code2World-8B在下一UI预测任务中表现最佳,媲美竞品GPT-5和Gemini-3-Pro-Image。值得注意的是,Code2World以灵活方式显著提升下游导航成功率,在AndroidWorld导航任务中将Gemini-2.5-Flash的性能提升9.5%。代码已开源:https://github.com/AMAP-ML/Code2World。
图形用户界面智能体已成为自动化数字环境交互的强大范式,但实现广泛通用性与持续强劲的任务性能仍具挑战。本报告提出UI-Venus-1.5——一个面向鲁棒实际应用的端到端统一GUI智能体。该模型系列包含两个稠密版本(2B/8B)和一个专家混合版本(30B-A3B),以适应多样化下游应用场景。相较于前代版本,UI-Venus-1.5引入三大关键技术突破:(1)基于30余个数据集、100亿token的中期训练阶段,建立GUI语义基础;(2)采用全轨迹展开的在线强化学习,使训练目标与大规模环境中长周期动态导航相契合;(3)通过模型融合构建统一GUI智能体,将领域专用模型(基础操作、网页端、移动端)整合为统一检查点。大量实验表明,UI-Venus-1.5在ScreenSpot-Pro(69.6%)、VenusBench-GD(75.0%)和AndroidWorld(77.6%)等基准测试中创下性能新纪录,显著超越现有强基线模型。此外,该智能体在各类中文移动应用中展现出鲁棒的导航能力,能有效执行真实场景下的用户指令。代码:https://github.com/inclusionAI/UI-Venus;模型:https://huggingface.co/collections/inclusionAI/ui-venus
人类解决问题从不固守单一思维模式——即特定的认知处理方式。面对具体任务时,我们并非依赖单一思维模式,而是在求解过程中融合多种思维模式。然而现有的大语言模型推理方法普遍陷入一个误区:在所有步骤中套用相同的固定思维模式,忽视了解决同一问题不同阶段需要截然不同的思维模式。这种单一思维假设阻碍了模型实现更高层次的智能。为突破这一局限,我们提出思维链框架——一种无需训练的主体性框架,可实现步骤级自适应思维编排。该框架将推理分解为四种功能异构的思维模式:空间思维、聚合思维、发散思维与算法思维。元智能体根据动态演进的推理状态实时选择最优思维模式,双向上下文门控机制则通过过滤跨模块信息流来保持效能与效率的平衡。在涵盖数学、代码生成、科学问答和空间推理的六大挑战性基准测试中,思维链框架均取得最先进性能:在Qwen3-VL-32B-Instruct和Gemini-2.0-Flash模型上整体准确率分别超越最强基线4.96%和4.72%,同时兼顾推理效率。代码已开源於https://github.com/QuantaAlpha/chain-of-mindset。
大型语言模型(LLM)智能体在复杂任务中展现出惊人能力,但其往往孤立运作,难以从历史经验中学习。现有基于记忆的方法主要存储原始任务轨迹,这些轨迹通常存在冗余且包含大量噪声,阻碍了智能体提取对泛化至关重要的高层次可复用行为模式。本文提出SkillRL框架,通过自动技能发现与递归进化机制,在原始经验与策略提升之间建立桥梁。我们的方法引入基于经验的蒸馏机制构建分层技能库SkillBank,采用自适应检索策略获取通用与任务特定启发式规则,并设计递归进化机制使技能库能在强化学习过程中与智能体策略协同演化。这些创新显著降低了标记占用规模,同时提升了推理效用。在ALFWorld、WebShop及七项搜索增强任务上的实验表明,SkillRL实现了最先进性能,以超过基线方法15.3%的优势领先,并在任务复杂度增加时保持稳健性。代码已开源:https://github.com/aiming-lab/SkillRL。
从符号处理向科学级推理的转变,是大型语言模型(LLMs)发展的关键前沿领域,而物理学作为连接抽象逻辑与物理现实的试金石,具有决定性意义。物理学要求模型必须遵循宇宙规律保持物理一致性,这一任务本质上需要多模态感知能力来将抽象逻辑锚定于现实。在奥赛层面,图表往往具有构成性而非辅助性,其中包含文本未提及的关键约束条件(如边界条件和空间对称性)。为弥合这种视觉逻辑鸿沟,我们推出了P1-VL系列开源视觉语言模型,专为高级科学推理设计。该方法将课程强化学习(采用渐进式难度扩展以稳定后训练)与智能体增强技术(支持推理时的迭代自验证)相融合。在包含2024-2025年13场考试的严苛基准HiPhO上评估,我们的旗舰模型P1-VL-235B-A22B成为首个斩获12枚金牌的开源视觉语言模型(VLM),并在开源模型中实现最先进性能。我们的智能增强系统位列全球总排名第二,仅次于Gemini-3-Pro。在物理学之外,P1-VL展现出卓越的科学推理能力与泛化性,在STEM基准测试中相对基础模型建立显著优势。通过开源P1-VL,我们为迈向通用物理智能奠定了基石,使机器科学发现能更好地实现视觉感知与抽象物理定律的协同。
近期大语言模型(LLM)的突破性进展使得自主智能体能够执行需要与工具及环境进行多轮交互的复杂任务。然而,由于缺乏多样化且可靠的环境资源,此类智能体训练的规模化发展受到限制。本文提出智能体世界模型(AWM)——一种全合成环境生成流程。通过该流程,我们成功构建了覆盖日常场景的1000个交互环境,智能体可在其中使用丰富工具集(平均每个环境含35种工具)并获取高质量观测值。值得注意的是,这些环境由代码驱动且以数据库为支撑,相比LLM模拟的环境能提供更可靠、一致的状态转换。此外,与从现实环境采集轨迹相比,该方案能实现更高效的智能体交互。为验证该资源的有效性,我们针对多轮工具使用型智能体开展了大规模强化学习实验。得益于完全可执行的环境和可访问的数据库状态,我们还能设计出可靠的奖励函数。在三个基准测试上的实验表明,仅使用合成环境(而非特定基准环境)进行训练即可实现强大的分布外泛化能力。代码已开源:https://github.com/Snowflake-Labs/agent-world-model。
块稀疏注意力机制在加速长上下文LLM预填充方面前景广阔,但如何高效识别相关块仍是瓶颈。现有方法通常采用粗粒度注意力作为块重要性估计的代理,却往往依赖昂贵的词元级搜索或评分,导致显著的选择开销。本文通过理论溯源发现,标准粗粒度注意力(经均值池化)的失准根源在于其与旋转位置编码(RoPE)的相互作用:均值池化作为低通滤波器,会在高频维度引发相消干涉,从而对局部位置信息(如斜线模式)形成"盲区"。为此,我们提出Prism——一种免训练的光谱感知方法,将块选择分解为高频与低频双分支。通过基于能量的温度校准,Prism直接从池化表征中恢复被衰减的位置信号,实现纯块级操作的重要性估计,从而提升效率。大量实验证实,Prism在保持与全注意力模型精度持平的同时,可获得最高5.1倍的加速比。
近日,扩散大语言模型(dLLM)凭借其固有的并行解码机制和灵活的生成范式,展现出独特的效率优势。与此同时,尽管搜索智能体发展迅速,但其实际部署仍受限于一个根本性制约——1)延迟挑战:在ReAct智能体范式下,多轮推理、工具调用及工具响应等待的串行执行会导致严重的端到端延迟。直观来看,dLLM可凭借其独特优势优化ReAct范式下智能体的运行效率。然而实践中,现有dLLM骨干网络面临2)智能体能力挑战:现有dLLM表现出明显薄弱的推理与工具调用能力,致使这些优势无法在实践中有效实现。本文提出DLLM-Searcher这一基于dLLM的搜索智能体优化框架。针对智能体能力挑战,我们设计包含智能体监督微调(Agentic SFT)与智能体方差缩减偏好优化(Agentic VRPO)的两阶段后训练流程,增强骨干dLLM的信息检索与推理能力。为缓解延迟挑战,我们利用dLLM的灵活生成机制提出并行推理与执行(P-ReAct)的新型智能体范式,通过引导模型优先解码工具调用指令,实现在等待工具返回时持续思考。实验表明,DLLM-Searcher达到与主流基于LLM的搜索智能体相当的性能,且P-ReAct带来约15%的推理加速。代码已开源:https://anonymous.4open.science/r/DLLM-Searcher-553C
动作可控世界模型的规模化发展受限于动作标签的稀缺性。虽然潜在动作学习有望从无标注视频中提取控制接口,但习得的潜在表征常难以跨场景迁移:它们会混杂场景特定线索,且缺乏统一的坐标系。这是因为标准目标函数仅在各视频片段内部生效,无法提供跨场景动作语义的对齐机制。我们的核心发现是:尽管动作本身不可观测,但其语义效应是可观测的,并能作为共享参照基准。我们提出SeqΔ-REPA——一种序列层级的控制效应对齐目标,通过冻结的自监督视频编码器生成的时间特征差异来锚定集成潜在动作。在此基础上,我们开发了Olaf-World流程,能够基于大规模被动视频预训练动作条件化的视频世界模型。大量实验表明,相较于现有最优基线方法,我们的方法能学习到更具结构化的潜在动作空间,在零样本动作迁移任务中表现更优,且能更高效地适应新控制接口。
我们研究专业工作流下的指令驱动图像编辑,发现三个长期存在的挑战:(i)编辑者常过度编辑,超出用户意图修改内容;(ii)现有模型多为单轮编辑,而多轮修改会削弱对象保真度;(iii)当前约1K分辨率的评估标准与真实工作流中常使用的超高清图像(如4K)不匹配。为此提出Agent Banana——一种面向高保真、对象感知、审慎编辑的分层智能体规划-执行框架。该框架引入两大核心机制:(1)上下文折叠:将长交互历史压缩为结构化记忆,实现稳定的长程控制;(2)图像图层分解:通过基于图层的局部化编辑保护非目标区域,同时支持原生分辨率输出。为支撑严谨评估,我们构建HDD-Bench高清对话式基准数据集,包含可验证的渐进式目标及原生4K图像(1180万像素),用于诊断长程编辑失败案例。在HDD-Bench上,Agent Banana在保持指令跟随竞争力的同时,实现了最佳的多轮一致性及背景保真度(如IC 0.871、SSIM-OM 0.84、LPIPS-OM 0.12),并在标准单轮编辑基准上表现优异。本研究有望推动可靠的专业级智能体图像编辑技术及其在实际工作流中的集成应用。
自回归视频生成技术通过将新生成的帧序列迭代地基于先前生成内容进行条件化,实现了长视频合成。然而近期研究表明,此类流程存在严重的时间漂移问题——误差会随时间推移不断累积并放大。我们提出假设:这种漂移现象主要并非源于模型容量不足,而是由推理过程中的误差传播导致。具体而言,我们认为漂移源于自回归推理过程中对已损坏潜在条件标记的不可控重复使用。为纠正这种误差累积,我们提出一种简单的推理阶段解决方案:通过在重复用于条件化之前识别并移除不稳定的潜在标记,从而缓解时间漂移。我们将不稳定标记定义为表征与前一生成批次差异显著的潜在标记,这种差异暗示着可能存在数据损坏或语义漂移。通过从自回归上下文中显式移除已损坏的潜在标记(而非修改整个空间区域或模型参数),我们的方法能阻止不可靠的潜在信息影响后续生成步骤。该方法无需修改模型架构、训练流程或脱离潜在空间,即可显著提升长序列生成的时间一致性。
近期研究探索了自回归模型在图像生成中的应用并取得显著成果,同时将扩散模型与自回归框架相结合,通过扩散损失优化图像生成。本研究从理论角度分析了采用扩散损失的扩散模型与自回归模型,重点揭示了后者的优势。我们通过理论对比证明,在自回归扩散模型中采用块去噪优化能有效抑制条件误差,形成稳定的条件分布。分析还表明自回归条件生成过程可优化条件本身,使条件误差的影响呈指数级衰减。此外,我们基于最优传输理论提出了一种新颖的条件优化方法,以解决"条件不一致"问题。理论分析表明,将条件优化建模为Wasserstein梯度流可确保收敛至理想条件分布,从而有效缓解条件不一致现象。实验结果表明,本方法在性能上优于采用扩散损失的扩散模型与自回归模型。
视觉-语言-动作(VLA)模型已成为通用机器人控制领域的重要范式,其中测试时扩展(TTS)技术通过增强鲁棒性而受到关注。然而,现有VLA的TTS方法需要额外训练、验证器和多次前向传播,难以实际部署。此外,这些方法仅在动作解码阶段进行干预,而保持视觉表征固定——这在感知模糊场景下存在不足,因为重新评估如何感知与决策行动同等重要。为解决这些局限,我们受主动推理理论中不确定性驱动探索的启发,提出SCALE这一无需额外训练、验证器和单次前向传播的推理策略,基于"自我不确定性"联合调节视觉感知与动作。SCALE能在高不确定性时拓宽感知与动作的探索空间,在置信度高时聚焦利用,从而实现跨场景的自适应执行。模拟与真实场景实验表明,SCALE不仅能提升先进VLA模型性能,还优于现有TTS方法,同时保持单次推理效率。
将大型语言模型(LLM)转化为视觉语言模型(VLM)可通过将视觉编码器生成的视觉标记映射至LLM的嵌入空间来实现。有趣的是,这种映射仅需简单的浅层MLP变换即可完成。为理解LLM为何能轻松处理视觉标记,我们需要可解释性方法来揭示LLM每一层处理过程中视觉标记表征所编码的信息。本文提出LatentLens——一种将潜在表征映射至自然语言描述的新方法。该方法通过编码大规模文本语料库,存储其中每个标记的上下文表征,随后将视觉标记表征与文本标记的上下文表征进行比对,通过Top-k最近邻表征生成视觉标记的描述。我们在10种不同VLM上评估该方法,发现常用方法(如LogitLens)严重低估了视觉标记的可解释性。而采用LatentLens后,所有研究模型的所有层中大多数视觉标记均具备可解释性。定性研究表明,LatentLens生成的描述具有语义意义,相比单个标记能为人类提供更细粒度的解读。更广泛而言,我们的发现为视觉与语言表征的对齐关系提供了新证据,为分析潜在表征开辟了新方向。
为具身智能体配备任务推理、物理结果预测和精确动作生成的能力,是实现通用操作的关键。尽管当前视觉-语言-动作模型已利用预训练基础模型,但它们通常孤立地关注语言规划或视觉预测单一维度。这些方法很少能同时整合双重能力来指导动作生成,导致在复杂长周期操作任务中表现欠佳。为弥补这一缺陷,我们提出BagelVLA——一个在统一框架中集成语言规划、视觉预测与动作生成的融合模型。基于预训练的统一理解与生成模型初始化,BagelVLA通过训练将文本推理和视觉预测直接嵌入动作执行循环。为实现多模态高效耦合,我们提出残差流引导技术:该技术从当前观测状态初始化,利用单步去噪提取预测性视觉特征,以极低延迟指导动作生成。大量实验表明,BagelVLA在多个仿真与真实环境基准测试中显著超越现有基线模型,尤其在需要多阶段推理的任务中表现突出。
训练能够适应多样化场景的通才智能体,需要依赖交互式环境进行自主探索。然而当前交互环境仍极度匮乏,现有合成方法在环境多样性与可扩展性方面存在明显局限。为解决这一难题,我们提出ScaleEnv框架,该框架能够从零开始构建完全可交互的环境与可验证任务。具体而言,ScaleEnv通过程序化测试确保环境可靠性,借助工具依赖图扩展与可执行动作验证来保证任务完整性与可解性。通过让智能体在ScaleEnv中进行探索式学习,我们在τ^2-Bench和VitaBench等未见过的多轮工具使用基准测试中实现了显著性能提升,展现出强大的泛化能力。此外,我们探究了领域数量增长与模型泛化性能的关系,通过实证证明扩展环境多样性对构建鲁棒智能体学习系统至关重要。
在互联网规模视频数据上预训练视觉-语言-动作策略具有吸引力,但当前潜在动作目标常出现学习偏差:这些方法仍受限于像素变化而非与动作相关的状态转移,导致易受外观偏差、干扰运动和信息泄漏的影响。我们提出VLA-JEPA,一种基于联合嵌入预测架构的预训练框架,其设计能规避上述缺陷。核心思想是无泄漏状态预测:目标编码器从未来帧生成潜在表征,而学生通路仅观测当前状态——未来信息仅作为监督目标,从不作为输入。通过在潜在空间而非像素空间进行预测,VLA-JEPA能学习对相机运动和无关背景变化具有鲁棒性的动态抽象表征。这形成了一种简单的两阶段方案——JEPA预训练后接动作头微调——无需传统潜在动作流程的多阶段复杂性。在LIBERO、LIBERO-Plus、SimplerEnv仿真环境及真实世界操作任务上的实验表明,VLA-JEPA在泛化性和鲁棒性上均优于现有方法。
当前机器人学习的主流范式试图通过运行时语言提示来实现跨环境、具身形态和任务的泛化。但这种方法存在根本性矛盾:语言往往过于抽象,难以指导实现稳健操作所需的具体物理理解。本研究提出接触锚定策略(CAP),用空间物理接触点替代语言条件约束。同时,我们将CAP构建为模块化功能模型库而非单一通用策略。这种分解式设计实现了实景-仿真迭代循环:通过构建轻量级仿真基准平台EgoGym,在真实场景部署前快速识别故障模式并优化模型与数据集。实验表明,基于接触条件约束并通过仿真迭代的CAP,仅需23小时演示数据即可开箱即用地泛化至新环境和具身形态,在三种基础操作技能上的零样本评估表现优于当前最先进的大规模视觉语言动作模型56%。所有模型检查点、代码库、硬件方案、仿真环境及数据集将全面开源。项目页面:https://cap-policy.github.io/
多智能体大语言模型系统通过角色分工实现高级推理与工具调用,但其可靠的强化学习后训练仍具挑战。本文从理论层面指出,将分组强化学习扩展至多智能体系统时,训练不稳定的核心原因在于:基于GRPO的优化过程中,全局归一化基线可能偏离异构智能体的奖励分布,最终引发梯度范数失稳。基于此发现,我们提出Dr. MAS——一种简洁稳定的多智能体大语言模型强化学习训练方案。该方法采用智能体级修正策略:利用各智能体自身的奖励统计量对优势函数进行独立归一化,从而校准梯度尺度,在理论与实证层面显著提升训练稳定性。除算法创新外,Dr. MAS构建了端到端的多智能体强化学习训练框架,支持可扩展的系统编排、灵活的智能体级模型服务与优化配置,以及大语言模型执行后端的资源共享调度。基于Qwen2.5和Qwen3系列模型在多智能体数学推理与多轮搜索基准上的实验表明,Dr. MAS相较原始GRPO实现显著提升(如数学任务平均指标提升5.6%、通过率提升4.6%,搜索任务平均指标提升15.2%、通过率提升13.1%),同时基本消除梯度尖峰现象。此外,该方法在异构智能体模型分配场景下仍保持高效,并进一步提升系统效率。
从无标注视频数据中学习可迁移知识并应用于新环境,是智能体的核心能力。本研究推出VideoWorld 2系统,在VideoWorld基础上首次实现了直接从原始真实视频中学习可迁移知识的探索。该系统的核心是动态增强的隐式动态模型(dLDM),其创新在于将动作动态与视觉外观解耦:通过预训练视频扩散模型处理视觉外观建模,使dLDM能够专注于学习紧凑且富含任务语义的动态隐编码。这些隐编码通过自回归建模学习任务策略,并支持长时序推理。我们在具有挑战性的真实世界手工艺制作任务上评估VideoWorld 2,此类任务此前常令视频生成与隐动态模型难以稳定运行。令人瞩目的是,VideoWorld 2实现了任务成功率最高70%的提升,并能生成连贯的长时执行视频。在机器人领域,我们证明VideoWorld 2可从Open-X数据集习得有效的操作知识,显著提升在CALVIN基准上的任务表现。这项研究揭示了直接从原始视频学习可迁移世界知识的潜力,所有代码、数据及模型将开源以推动后续研究。
高质量开放数据集仍是文本到图像生成模型微调的主要瓶颈。尽管模型架构与训练流程快速发展,但多数公开微调数据集存在分辨率低、图文对齐差或多样性有限等问题,导致开源研究模型与企业级模型间存在明显性能差距。本研究推出Fine-T2I——一个大规模、高质量、完全开放的T2I微调数据集。该数据集涵盖10种任务组合、32类提示词主题、11种视觉风格及5种提示模板,融合了现代强模型生成的合成图像与专业摄影师精心筛选的真实图像。所有样本均经过图文对齐度、视觉保真度和提示词质量的严格筛选,初始候选样本淘汰率超95%。最终数据集包含逾600万图文对,磁盘占用约2TB,在保持微调级质量的同时接近预训练数据集规模。基于多种预训练扩散模型和自回归模型的实验表明,使用Fine-T2I微调能持续提升生成质量与指令遵循能力,这一结论已通过人工评估、视觉对比和自动指标验证。我们将以开放许可协议发布Fine-T2I,助力缩小开源社区在T2I微调领域的数据差距。
针对终端任务训练智能体模型,关键在于获取能够捕捉跨领域长程交互的高质量终端轨迹数据。然而大规模构建此类数据面临两大挑战:其一是可执行性要求,每个实例都需要配置适宜且往往各异的Docker环境;其二是可验证性难题,异构任务输出难以实现统一标准化验证。为此我们提出TerminalTraj可扩展流水线,通过三重机制突破瓶颈:(一)筛选高质量代码库构建Docker化执行环境;(二)生成与Docker环境对齐的任务实例;(三)合成带有可执行验证代码的智能体轨迹。基于该方案,我们成功构建32,000个Docker镜像并在八大领域生成50,733条已验证终端轨迹。采用Qwen2.5-Coder架构的模型在此数据上训练后,在TerminalBench评估中实现持续性能提升:TB~1.0版本最高提升20%,TB~2.0版本提升10%。特别值得注意的是,TerminalTraj-32B模型在百亿参数以下模型中表现突出,TB~1.0得分达35.30%,TB~2.0得分22.00%,并展现出优化的测试时扩展特性。所有代码与数据已开源:https://github.com/Wusiwei0410/TerminalTraj。
大型语言模型(LLM)在处理长上下文时面临显著挑战,包括二次计算成本、信息遗忘以及检索增强生成(RAG)固有的上下文碎片化问题。我们提出一种受认知启发的长上下文高效推理框架,其核心在于分块压缩与选择性记忆回溯,而非处理所有原始标记。该框架将长输入分割为文本块,通过习得的压缩器将每个块编码为压缩记忆表征。门控模块动态选择相关记忆块,随后由推理模块结合动态演化的即时记忆进行迭代处理以解决下游任务。压缩器与推理器通过端到端强化学习联合优化,而门控模块则作为分类器单独训练。实验结果表明:该方法在RULER-HQA等多跳推理基准测试中达到具有竞争力的准确率,上下文长度外推能力从7K标记扩展至175万标记,且相较于强长上下文基线模型展现出更优的准确率-效率平衡。特别值得注意的是,其峰值GPU内存占用最高可降低至MemAgent的1/2,推理速度提升达6倍。
激活导向技术已成为高效调整大语言模型以适应下游行为的有效方法。然而现有导向方法大多依赖每个任务或概念的单一静态方向,导致其难以应对任务变化,且无法胜任需要多能力协同的复杂任务。为此,我们提出STEER2ADAPT轻量级框架,通过组合导向向量而非从头学习新向量来实现模型适配。在推理、安全等诸多领域,任务间共享少量潜在概念维度。STEER2ADAPT将这些维度捕获为可复用的低维语义先验子空间,仅需少量示例即可通过动态发现基向量的线性组合来适应新任务。在推理与安全领域的9项任务和3个模型上的实验表明,STEER2ADAPT平均性能提升达8.2%。深入分析进一步揭示,该方法是一种数据高效、稳定且透明的推理时大模型适配技术。
扩散变换器通常通过注意力层和基于池化文本嵌入的调制机制来融合文本信息。然而,近期研究摒弃了基于调制的文本条件控制,完全依赖注意力机制。本文旨在探究基于调制的文本条件控制是否必要,以及其能否带来性能优势。我们的分析表明,在传统使用方式下,池化嵌入对整体性能贡献甚微,这说明仅凭注意力机制通常足以准确传递提示信息。但研究发现,当从不同视角利用池化嵌入时——将其作为引导信号以实现向更理想属性的可控偏移——它能带来显著性能提升。该方法无需重新训练、实现简单、运行时开销可忽略不计,可应用于各类扩散模型,在文本到图像/视频生成及图像编辑等多样化任务中均能带来提升。
本文提出Covo-Audio——一个拥有70亿参数、能直接处理连续音频输入并生成音频输出的端到端语言增强音频模型(LALM)。通过大规模精选预训练与针对性后训练,该模型在语音-文本建模、口语对话、语音理解、音频理解及全双工语音交互等广泛任务中,达到了同规模模型的领先或竞争优势。大量评估表明,该预训练基础模型在多个基准测试中展现出强大的语音-文本理解与语义推理能力,性能优于同规模代表性开源模型。其对话优化版本Covo-Audio-Chat表现出卓越的口语对话能力,包括语境理解、指令遵循及生成具有共情力的上下文相关回复,验证了其在现实对话助手场景的适用性。进阶版全双工模型Covo-Audio-Chat-FD在口语对话能力和全双工交互行为上均实现显著提升,展现出优异的实际鲁棒性。为降低端到端LALM在自然对话系统中的部署成本,我们提出智能-语音解耦策略,将对话智能与语音渲染分离,仅需少量文本转语音(TTS)数据即可实现灵活音色定制,同时保持对话性能。总体而言,我们的研究成果凸显了70亿参数模型在融合精密音频智能与高层语义推理方面的巨大潜力,为构建更强大、通用的LALM指明了可扩展路径。
思维链推理及其变体方法显著提升了语言模型在复杂推理任务上的表现,然而不同策略促进泛化能力的具体机制尚未明晰。现有解释多指向测试时计算量的增加或结构化引导,但这些因素与泛化能力之间始终缺乏一致的量化关联。本研究提出以内在维度作为量化指标来刻画推理链的有效性——该指标衡量模型在特定任务上达到给定准确率阈值所需的最小维度数。通过固定模型架构并改变任务表述方式,我们发现有效的推理策略能持续降低任务的内在维度。基于Gemma-3 1B/4B模型在GSM8K数据集上的验证表明,推理策略的内在维度与其在分布内和分布外数据上的泛化性能呈强负相关。这些发现揭示:有效的推理链通过以更少参数实现任务压缩来促进学习,为分析推理过程提供了新的量化指标。
大型语言模型(LLMs)在解决复杂数学问题方面展现出潜力,但其生成结果的准确性与一致性仍有不足。强化学习(RL)作为一种框架,可通过任务特定奖励信号对齐模型行为,从而提升整体质量与可靠性。群体相对策略优化(GRPO)是近端策略优化(PPO)的一种高效、无需价值函数的替代方案,其核心在于采用群体相对奖励归一化方法。本文提出迭代式群体相对策略优化(iGRPO),该两阶段扩展算法在GRPO基础上引入模型生成草稿的动态自条件机制。第一阶段,iGRPO通过采样多份探索性草稿,并基于优化所用的标量奖励信号筛选出最优草稿;第二阶段,将最优草稿附加至原始提示后,对基于草稿条件的优化结果实施GRPO式更新,训练策略突破其先前最佳尝试。在相同计算预算下,iGRPO在多个基础模型(如Nemotron-H-8B-Base-8K与DeepSeek-R1 Distilled)上均稳定超越GRPO,在不同推理基准测试中验证了其有效性。此外,将iGRPO应用于基于AceReason-Math数据集训练的OpenReasoning-Nemotron-7B模型后,在AIME24和AIME25上分别达到85.62%与79.64%的最新顶尖水平。消融实验进一步表明:优化框架可泛化至GRPO变体之外,生成式评判器能提升性能,且该机制通过延迟熵坍缩改变学习动态。这些成果凸显了基于迭代式自反馈的强化学习在推进可验证数学推理方面的潜力。
有效扩展图形用户界面(GUI)自动化对计算机使用智能体(CUAs)至关重要,但现有研究主要聚焦于GUI基础定位的扩展,而非更需要复杂数据收集的GUI规划环节。实际上,CUA在跨应用/桌面/网页的探索过程通常呈现树状结构,早期功能入口点往往被更频繁访问。因此将大规模操作轨迹组织为树结构,既能降低数据成本,又可简化GUI规划的数据扩展。本文提出TreeCUA系统,通过树状可验证演化实现高效GUI自动化扩展。我们设计多智能体协作框架,通过环境探索、动作验证、轨迹总结和质量评估来生成高质量可扩展的GUI轨迹。为提升效率,创新性地采用基于树的拓扑结构存储和回放重复探索节点,并设计自适应探索算法平衡深度(即轨迹难度)与广度(即轨迹多样性)。此外,开发世界知识引导和全局记忆回溯机制以避免低质量生成。最后基于丰富树节点信息自然延伸出TreeCUA-DPO方法,通过参考相邻轨迹的分支信息提升GUI规划能力。实验表明TreeCUA与TreeCUA-DPO均取得显著提升,域外(OOD)研究进一步验证了强泛化能力。所有轨迹节点信息与代码将在https://github.com/UITron-hub/TreeCUA 开源。
针对真实桌面环境的端到端图形用户界面智能体需要大量高质量交互数据,但人工演示采集成本高昂,现有合成流程常受限于任务多样性不足或存在目标漂移的噪声轨迹。我们提出轨迹扩展框架Anchor,通过少量已验证种子演示实现可扩展的桌面监督数据生成。该框架从每个种子轨迹出发,识别引发显著状态变化的分支点,并基于当前图形界面上下文生成新的状态锚定任务变体。执行智能体随后遵循指令生成新轨迹,验证器则通过状态感知检查和轨迹级一致性确保任务完成。为提升监督质量,我们进一步应用任务条件化的步骤级过滤以消除无关联操作,并对分支后片段进行去噪处理以保持意图连贯性。在OSWorld和WindowsAgentArena标准桌面基准测试中,基于扩展语料库微调的模型相比零样本智能体和代表性合成基线实现持续提升,并展现出跨应用与操作系统的泛化能力。
面向具身智能体的真实世界数据采集成本高昂且存在安全隐患,亟需可扩展、高仿真且适配仿真器的三维环境。然而现有场景生成系统多依赖基于规则或特定任务的流程,易产生伪影和物理无效场景。我们提出SAGE智能体框架,在给定用户指定的具身任务(如“拿起碗放在桌上”)后,该系统能理解意图并自动生成可投入仿真的规模化环境。该智能体耦合了布局与物体组合的多重生成器,以及评估语义合理性、视觉真实性和物理稳定性的批判模块。通过迭代推理与自适应工具选择,它能持续优化场景直至满足用户意图与物理有效性。生成的环境兼具真实性、多样性,可直接部署于现代仿真器进行策略训练。仅基于本数据训练的智能策略展现出明显的规模扩展趋势,并能泛化至未见过的物体与布局,印证了仿真驱动规模化对具身人工智能的应用价值。代码、演示及SAGE-10k数据集详见项目页面:https://nvlabs.github.io/sage。
本文对视觉生成领域连续式管道的统治地位提出挑战。我们系统性地研究了离散与连续方法之间的性能差异。与普遍认为离散分词器存在固有劣势的观点相反,我们证明这种差异主要源于潜在空间中分配的比特总数(即压缩率)。通过扩大码本规模可有效弥合该差距,使离散分词器达到甚至超越连续方法的性能。然而现有离散生成方法难以利用这一发现,在码本扩展时会出现性能下降或训练成本过高的问题。为此,我们提出掩码比特自回归建模(BAR)——一个支持任意码本规模的可扩展框架。通过为自回归变换器配备掩码比特建模头,BAR通过逐位生成离散令牌的组成比特进行预测。该方法在ImageNet-256数据集上实现了0.99的最新gFID指标,在连续与离散范式下均超越主流方法,同时显著降低采样成本,且比现有连续方法收敛更快。项目页面详见https://bar-gen.github.io/
并行思维已成为大型推理模型处理复杂问题的新范式。近期研究通过强化学习增强并行思维,旨在解决监督微调在计算资源和效果上的局限性。然而现有方法主要聚焦于答案聚合阶段的优化,对路径探索环节的关注不足。本文从可验证奖励的强化学习理论框架出发,通过理论分析发现探索路径间的互信息瓶颈是制约并行思维性能的根本因素。为此,我们提出大纲引导的路径探索方法,通过在并行路径推理前生成多样化推理大纲来显式划分解空间,从而降低信息冗余并提升路径间信息捕获的多样性。我们采用迭代式强化学习策略独立优化大纲规划与大纲引导推理,在多个高难度数学推理基准上的实验表明,该方法能有效提升不同聚合策略下的推理性能,使大型推理模型更可靠地发现正确解。
规划能力已成为当代智能体系统处理复杂长期任务的核心竞争力,但现有方法主要依赖固定的人工设计规划结构,缺乏适应开放性问题结构多样性的灵活性。为突破这一局限,我们提出TodoEvolve——一种能够自主合成并动态调整任务专属规划架构的元规划范式。具体而言,我们首先构建PlanFactory模块化设计空间,将拓扑构建、初始化、自适应调整与路径导航等多样化规划范式统一标准化至同一代码库,为异构规划模式提供通用接口。基于PlanFactory收集的高质量规划轨迹,我们通过阻抗导向偏好优化(IGPO)训练得到Todo-14B模型。该多目标强化学习框架能同步优化规划系统的性能稳定性、计算效率与令牌经济性,确保其在不同任务与智能体架构上的通用性。在五大智能体基准测试上的实证研究表明,TodoEvolve在保持较低API成本与运行时开销的同时,持续超越经过精心设计的规划模块。
语言模型中的激活解耦方法与激活空间中概念实现方式的几何假设紧密相关。现有方法通常寻找单一的全局方向,这种隐式假设线性可分的做法忽略了具有非线性或多维结构的复杂概念。本研究采用因子分析器混合模型(MFA)作为可扩展的无监督替代方案,将激活空间建模为具有局部协方差结构的高斯区域集合。MFA将激活分解为两个组合几何对象:激活空间中的区域质心,以及相对于质心的局部变异。我们针对Llama-3.1-8B和Gemma-2-2B训练了大规模MFA模型,证明其能捕捉激活空间中的复杂非线性结构。在定位与调控基准测试中,MFA不仅优于无监督基线方法,与有监督定位方法相比也具备竞争力,且其调控性能往往优于稀疏自编码器。这些发现共同表明,通过子空间表达的局部几何结构可作为可扩展概念发现和模型控制的有效分析单元,能够捕捉孤立方向所无法表征的复杂结构。
并行扩散解码通过单步解掩多个标记来加速扩散语言模型推理,但过度追求并行度常会损害生成质量。可撤销解码通过重新校验前期标记来缓解此问题,但我们发现现有校验方案常引发翻转振荡现象——标记被重新掩码后又在后续步骤恢复原状。这种行为从两方面拖慢推理:重新掩码已校验位置会削弱并行草稿生成的上下文条件,而反复的掩码循环消耗了大量修订预算却收效甚微。我们提出COVER(基于缓存覆盖的高效修订验证),通过单次前向传播同时完成留一验证与稳定草稿生成。COVER通过覆盖键值缓存构建双重视角:验证时掩码选定种子标记,同时将其缓存键值状态注入其他所有查询以保留上下文信息,并采用闭式对角校正防止种子位置的自泄露。该方法进一步通过平衡不确定性、下游影响及缓存漂移的稳定性感知评分来优先选择种子,并动态调整每步验证的种子数量。在多项基准测试中,COVER显著减少了不必要的修订,在保持输出质量的同时实现了更快的解码速度。
大型语言模型(LLMs)在软件开发中的应用日益广泛,但其生成不安全代码的倾向仍是实际部署的主要障碍。现有安全代码对齐方法常陷入功能性与安全性的矛盾,即以显著的功能性退化为代价来提升安全性。我们提出SecCoderX——一种基于在线强化学习的功能保持型安全代码生成框架。该框架通过两种方式整合成熟的安全检测资源,构建漏洞检测与安全代码生成的桥梁:(i) 合成多样化、基于真实场景的漏洞诱导型编程任务,用于在线强化学习推演;(ii) 训练基于推理的漏洞奖励模型,提供可扩展且可靠的安全监督。这些组件通过在线强化学习循环协同工作,使代码LLMs生成兼具安全性与功能性的代码。大量实验表明,SecCoderX实现了最先进的性能,将有效安全率(ESR)较未对齐模型提升约10%,而现有方法往往导致ESR下降14-54%。我们在https://github.com/AndrewWTY/SecCoderX 公开了代码、数据集和模型检查点。
流匹配方法虽然优雅,但其对单样本条件速度的依赖会导致高方差训练目标,从而破坏优化稳定性并减缓收敛速度。通过显式刻画这种方差特性,我们发现:1)在先验分布附近存在高方差区域,该区域优化难度大;2)在数据分布附近存在低方差区域,此处条件速度与边际速度几乎重合。基于这一发现,我们提出稳定速度(Stable Velocity)统一框架,同时改进训练与采样过程。训练方面,我们引入无偏方差缩减目标——稳定速度匹配(StableVM),并结合方差感知表征对齐(VA-REPA)方法,在低方差区域自适应增强辅助监督。推理方面,我们证明低方差区域的动力学过程存在闭式简化形式,由此实现无需微调的加速采样方法——稳定速度采样(StableVS)。在ImageNet 256×256及SD3.5、Flux、Qwen-Image、Wan2.2等大型预训练文本-图像/文本-视频模型上的实验表明,该方法能持续提升训练效率,并在低方差区域实现超过2倍的加速采样,且不损失生成质量。代码已开源:https://github.com/linYDTHU/StableVelocity。
视觉语言模型(VLMs)在解决复杂推理问题时,自我纠错能力至关重要。然而现有强化学习(RL)方法难以有效习得该能力,因为有效的自我纠错行为出现频率极低,导致学习信号极度稀疏。为应对这一挑战,我们提出纠错专用轨迹重组框架(Octopus),通过重组现有轨迹来合成密集的自我纠错样本,实现RL轨迹扩增。这种扩增既通过轨迹复用提升了样本效率,又通过均衡化监督稳定了RL优化过程。此外,我们引入响应掩码策略,将自我纠错与直接推理解耦,避免信号冲突,使两种行为都能被有效学习。基于此,我们开发出具备可控自我纠错能力的推理模型Octopus-8B。在7个基准测试中,该模型在开源VLMs中实现最先进性能,以仅0.72倍的单步训练时间超越最佳RLVR基线1.0个指标分。
本文旨在将测试时训练与一种新型参数化内存相融合,该内存可灵活地从模型参数中卸载或合并。我们提出Locas——一种局部支持的参数化内存,其共享现代Transformer中前馈网络块的设计,既能灵活持久化融入模型参数,又支持高效的持续学习。我们探讨了Locas的两种主要变体:一种采用传统双层MLP设计,具备更明确的理论保证;另一种与前沿大语言模型共享GLU-FFN结构,可便捷接入现有模型,实现参数与计算双高效的持续学习。关键的是,我们通过模型参数、激活值和/或梯度的原则性复用,证明了对此类低秩侧向FFN式内存的正确初始化——对于快速收敛、提升泛化能力及防止灾难性遗忘具有决定性作用。我们在PG-19全书语言建模和LoCoMo长上下文对话问答任务上验证了所提内存机制。在最低仅增加0.02%参数量的情况下,Locas-GLU既能存储历史上下文信息,又可维持极小的上下文窗口。此外,通过对比性MMLU评估,我们测试了模型在使用Locas记忆整本书后的通用能力损失。结果表明Locas能够将历史上下文持久化为参数化知识,同时最大程度避免对模型现有内部知识的灾难性遗忘。
基于大语言模型的代码代理在自动化问题解决基准测试中展现出强大性能,但现有评估主要关注最终任务成功率,对代理在解题过程中如何检索和利用代码语境的洞察有限。我们推出ContextBench——一个面向过程的代码代理语境检索评估框架。该框架包含来自8种编程语言66个代码库的1,136个问题解决任务,每个任务均配备人工标注的黄金语境标准。我们进一步实现了自动化评估框架,可追踪代理行为轨迹并全程测量问题解决过程中的语境召回率、精确率和效率。通过ContextBench,我们评估了4个前沿大语言模型和5个代码代理。研究结果表明:复杂代理框架对语境检索的提升有限(印证代码代理领域的"苦涩教训"),大语言模型持续偏向召回率而非精确率,且已探索语境与实际使用语境存在显著差距。ContextBench通过引入揭示问题解决过程的中层黄金语境指标,对现有端到端基准测试形成有效补充。这些语境为指导大语言模型在软件任务中的推理提供了宝贵的中间信号。
强化学习能显著提升大语言模型的推理能力,但往往会导致思维链输出延长,并增加训练与推理过程中的计算成本。尽管已有长度控制方法被提出,但如何平衡效率与性能的最佳输出长度仍不明确。本研究在Qwen3-1.7B Base和DeepSeek-R1-Distill-Qwen-1.5B两个模型上比较了多种长度控制方法。结果表明,长度惩罚可能阻碍推理能力习得,而对具有先验强推理能力模型进行适当调优的长度控制可提升效率。通过将现有研究扩展至强化学习训练策略,我们识别出两种失效模式:1)长输出会增加发散性,2)短输出会导致思考不足。
基础模型的无状态特性制约了智能体系统持续学习的能力,而这一能力正是实现长周期推理与适应的核心。为突破此限制,智能体系统通常通过引入记忆模块来保存并复用过往经验,以期在测试阶段实现持续学习。然而现有记忆设计大多依赖人工构建且结构固定,难以适应现实任务中动态多变的环境。本文提出ALMA(面向智能体系统的自动化记忆设计元学习框架),该框架通过元学习生成记忆设计方案以替代人工设计,从而减少人力投入,使智能体系统成为跨领域的持续学习者。我们的方法采用元代理对可执行代码形式的记忆设计进行开放式搜索,理论上能够发现任意记忆架构,包括数据库模式及其检索更新机制。在四个序列决策领域的广泛实验表明,相较于所有基准测试中最先进的人工设计记忆方案,通过ALMA习得的记忆设计能更高效地从经验中学习。在安全开发部署的前提下,ALMA标志着人工智能系统向自我改进迈出重要一步——这类系统能够学会成为具有适应性的持续学习者。
具备工具调用能力的AI智能体易受间接提示注入攻击。在此类攻击场景中,隐藏在不可信内容中的恶意指令会诱使智能体执行未授权操作。现有防御方案虽能降低攻击成功率,但常陷入过度防御困境:无论实际威胁是否存在都持续采用高成本的净化处理,导致在正常场景下也牺牲了系统效用与响应速度。我们通过因果消融视角重新审视间接提示注入攻击:成功的注入表现为控制权转移——用户请求不再对智能体的特权行为产生决定性影响,而某个不可信片段(如检索文档或工具输出)却产生不成比例的归因影响。基于此特征,我们提出CausalArmor选择性防御框架,其具备双重机制:(i)在特权决策点计算基于留一法的轻量级归因分析;(ii)仅当不可信片段主导用户意图时才触发精准净化。此外,CausalArmor采用回溯式思维链掩码技术,防止智能体基于"中毒"推理轨迹执行操作。理论分析表明,基于归因边际的净化处理能使恶意动作选择概率的条件上界呈指数级缩小。在AgentDojo和DoomArena平台上的实验证明,CausalArmor在保持激进防御方案安全性的同时,显著提升了可解释性,并维护了AI智能体的实用性与响应效率。
间接提示注入通过将恶意指令嵌入外部内容威胁大语言模型智能体,导致未授权操作和数据窃取。LLM智能体通过上下文窗口维持工作记忆,该窗口存储交互历史以支持决策。传统智能体 indiscriminately 将所有工具输出和推理痕迹累积于此内存,形成两大关键漏洞:(1)注入指令在工作流中持续存在,使攻击者获得多次操纵行为的机会;(2)冗余非必要内容会降低决策能力。现有防御方案将膨胀的内存视为既定事实,侧重于保持韧性,而非通过减少非必要积累来预防攻击。 我们提出AgentSys框架,通过显式内存管理防御间接提示注入。受操作系统进程内存隔离机制启发,AgentSys采用分层架构:主智能体为工具调用生成工作智能体,每个工作智能体在隔离上下文中运行,并可生成嵌套子智能体处理子任务。外部数据和子任务痕迹永不进入主智能体内存,仅通过确定性JSON解析传输经模式验证的返回值。消融实验表明,单凭隔离机制即可将攻击成功率降至2.19%,结合验证器/清理器的动态事件触发检查(其开销随操作数而非上下文长度增长)能进一步提升防御效果。 在AgentDojo和ASB基准测试中,AgentSys分别实现0.78%和4.25%的攻击成功率,同时在良性任务效用上较无防御基线略有提升。该框架对自适应攻击具备鲁棒性,且适用于多种基础模型,证明显式内存管理能实现安全动态的LLM智能体架构。代码已开源:https://github.com/ruoyaow/agentsys-memory。
视觉语言模型(VLMs)在文本与视觉输入的跨模态理解方面已取得显著成果,但现有基准测试主要聚焦于纯文本查询。现实场景中,语言常以嵌入图像的可视化文本形式出现,这引发了对当前VLMs处理此类输入请求能力的质疑。我们推出VISTA-Bench系统化基准,涵盖从多模态感知、推理到单模态理解领域。该基准通过对比受控渲染条件下的纯文本与可视化文本问题,评估模型的可视化文本理解能力。对20余个代表性VLM的广泛测试揭示出显著的模态鸿沟:在纯文本查询中表现优异的模型,当相同语义内容以可视化文本呈现时性能大幅下降。随着感知难度的增加,这种差距进一步扩大,表明尽管语义未变,模型对渲染差异仍具有高度敏感性。总体而言,VISTA-Bench提供了原则性评估框架,既可诊断这一局限性,又能指导模型在词元化文本与像素层面实现更统一的语言表征。源数据集已发布于https://github.com/QingAnLiu/VISTA-Bench。
测试时训练(TTT)通过基于梯度的推理时更新来调整语言模型。但适应策略是否合理?我们研究了可验证执行驱动(VEG)任务的计算最优测试策略,这类任务(如GPU内核优化)具有确定性评估器提供的密集连续奖励信号。以KernelBench为测试平台,采用1200亿参数模型(经LoRA适配的GPT-OSS-120B),我们发现搜索策略优于最小化适应(1-5个梯度步):在完整KernelBench L1评估集上,当K=64时最佳N采样达到90%任务成功率(18/20任务),而TTT最佳检查点仅达30.6%(三种子均值),TTT的"等效K值"低于1,逊于单样本推理。失败模式源于过度锐化:梯度更新使多样性坍缩至平庸解而非发现最优解。我们的核心贡献是惊异值引导选择:选取最高惊异值(最低置信度)的正确样本可实现80%成功率,相较最置信选择的50%提升30个百分点。扩展至惊异值引导前三选择即可匹配100%的预言机性能。这种零成本策略经长度控制分析验证,能完全恢复预言机性能。对于密集奖励的VEG任务,计算资源应分配给样本多样性和智能选择而非梯度适应。惊异值引导选择原则可推广至其他最优解位于分布尾部的执行驱动领域。
诸如扩散模型、流匹配和整流流等连续时间生成模型,虽能学习时间依赖的向量场,但其训练目标通常将不同时间步视为独立处理,导致估计量方差过高且采样效率低下。现有方法通过显式平滑惩罚、轨迹正则化或修正概率路径与求解器来缓解此问题。我们提出时序配对一致性(TPC)这一轻量级降方差原理:该技术通过耦合同一概率路径上配对时间步的速度预测,完全在估计量层面运作,无需修改模型架构、概率路径或求解器。理论分析表明,TPC会诱导产生一种二次型的轨迹耦合正则化,可在保持流匹配目标不变的同时有效降低梯度方差。在流匹配框架中实例化TPC后,其在CIFAR-10和ImageNet多个分辨率数据集上均提升了样本质量与效率,在相同或更低计算成本下获得比现有方法更低的FID指标,并可无缝扩展至包含噪声增强训练、基于分数的去噪及整流流的现代SOTA级流程。
大型语言模型正日益应用于高风险领域,其中罕见但严重的故障可能导致不可逆的损害。然而主流评估基准常将复杂的社会风险简化为以均值为中心的标量分数,从而模糊了分布结构、跨维度交互作用及最坏情况行为。本文提出基于风险画像的社会危害分析框架SHARP,该框架通过多维度、分布感知的方法评估社会危害。SHARP将危害建模为多元随机变量,将显式分解为偏见、公平性、伦理和认知可靠性的分析,与重构为加性累积对数风险的联合失效聚合方法相结合。该框架进一步采用风险敏感型分布统计量,以条件风险价值作为核心指标,以刻画最坏情况下的模型行为。将SHARP应用于11个前沿LLM的评估(基于固定包含901个社会敏感性提示语的语料库),发现具有相似平均风险的模型在尾部暴露和波动性上可能呈现两倍以上差异。跨模型分析显示,各维度边际尾部行为呈现系统性差异:偏见维度表现出最强的尾部严重性,认知与公平风险处于中等区间,而伦理失准风险持续较低;这些模式共同揭示了标量基准所掩盖的异构化、模型依赖的失效结构。研究表明,对LLM的负责任评估与治理需要超越标量均值,转向多维度、尾部敏感的风险画像分析。
现代部署要求大语言模型规模化实施安全策略,但现有控制方案多依赖推理时干预,这会带来持续的计算成本和服务复杂度。激活导向技术虽被广泛采用,但需要运行时钩子且生成次数越多成本越高;条件式变体通过门控机制提升选择性,却仍保留推理时控制路径。我们探讨能否将选择性拒绝完全离线化:能否将对特定类别拒绝机制的机理理解蒸馏为可部署为标准检查点的电路约束权重更新?我们提出C-Δθ:电路约束权重算术方法,其(i)通过EAP-IG将拒绝因果计算定位为稀疏电路,(ii)仅在该电路支撑范围内计算约束权重更新ΔθC(通常覆盖<5%参数)。应用ΔθC可生成即插即用的编辑检查点,无需推理时钩子,将每次请求的干预成本转移至一次性离线更新。我们在拒绝任务和效用基准上评估了该方法的类别靶向选择性与能力保持性。
随着计算机使用代理(CUA)在复杂现实环境中的广泛部署,普遍存在的长期风险往往会导致严重且不可逆的后果。现有CUA防护机制大多采用被动响应模式,仅能在当前观察空间内约束代理行为。这类防护机制虽可防范即时短期风险(如点击钓鱼链接),但无法主动规避长期风险:看似合理的行为可能引发延迟出现的高风险后果(如清理日志导致未来审计无法追溯),而被动防护机制在当前观察空间内无法识别此类风险。为突破这些局限,我们提出了一种预测性防护机制,其核心思想是将预测的未来风险与当前决策对齐。基于该方法,我们开发了SafePred框架——一种面向CUA的预测性防护系统,通过建立风险-决策闭环确保代理行为安全。SafePred具备两大核心能力:(1)短期与长期风险预测:以安全策略为风险预测基础,利用世界模型的预测能力生成短期与长期风险的语义表征,从而识别并剪枝导致高风险状态的行为;(2)决策优化:通过步骤级干预和任务级重规划,将预测风险转化为可执行的安全决策指引。大量实验表明,SafePred能显著减少高风险行为,安全性能达97.6%以上,相较被动基线方法任务效用最高提升21.4%。
利用表征编码器进行生成建模为实现高效、高保真合成提供了路径。然而,标准扩散变换器无法直接收敛于这些表征。尽管近期研究将其归因于容量瓶颈,并提出计算成本高昂的扩散变换器宽度扩展方案,但我们证明该失效本质上是几何性的。我们发现几何干扰是根本原因:标准欧几里得流匹配迫使概率路径穿过表征编码器超球面特征空间的低密度内部区域,而非沿流形表面行进。为解决此问题,我们提出带雅可比正则化的黎曼流匹配(RJF)。通过将生成过程约束在流形测地线上并修正曲率引起的误差传播,RJF使标准扩散变换器架构无需宽度扩展即可收敛。我们的方法使标准DiT-B架构(1.31亿参数)实现有效收敛,在现有方法无法收敛的情况下达到3.37的FID指标。代码地址:https://github.com/amandpkr/RJF
在每一个问题上都运行具备扩展推理能力的大型语言模型成本高昂,但如何确定哪些输入真正需要额外计算资源仍是挑战。我们研究模型在生成答案前,能否从其内部表征中提取出对自身成功几率的预判,并利用这种信号指导更高效的推理。通过在生成前激活状态上训练线性探针,我们成功预测了模型在数学和编程任务上的特定策略成功率,其表现显著优于问题长度和TF-IDF等表层特征。借助E2H-AMC数据集(该数据集同时提供人类和模型在相同问题上的表现数据),我们发现模型编码了一种区别于人类认知的、模型专属的难度感知,且这种差异随着扩展推理的深入而扩大。利用这些探针,我们证明在模型池中进行查询路由的策略,可以在MATH数据集上节省高达70%的推理成本的同时,超越单一最佳模型的性能。这表明即使内部表征与人类对难度的直觉存在分歧,它们仍能实现实际的效率提升。代码已开源:https://github.com/KabakaWilliam/llms_know_difficulty
属性图聚类(AGC)是一项基础性无监督任务,通过融合图结构拓扑与节点属性来挖掘图结构数据中的潜在模式。尽管该技术在欺诈检测、用户分群等工业应用中具有重要意义,但学术研究与实际部署之间仍存在显著鸿沟。当前评估方案受限于小规模高同配性的引文数据集、不可扩展的全批次训练范式,以及对无法反映标签稀缺环境下性能的有监督指标的依赖。为弥合这些差距,我们推出PyAGC——一个面向生产环境的综合性基准测试框架与算法库,旨在对不同规模和结构特性的AGC方法进行压力测试。我们将现有方法统一为模块化的"编码-聚类-优化"框架,并首次为多种前沿AGC算法提供了内存高效的迷你批次实现。本基准测试整合了12个多样化数据集(节点规模从2.7K至1.11亿),特别引入具有复杂表格特征和低同配性的工业级图数据。此外,我们提出将无监督结构指标和效率分析与传统有监督指标结合的全方位评估方案。该框架已在蚂蚁集团高价值工业工作流中经过实战检验,为学界和工业界推进AGC技术向实际应用迈进提供了稳健、可复现、可扩展的研究平台。相关代码资源已通过GitHub(https://github.com/Cloudy1225/PyAGC)、PyPI(https://pypi.org/project/pyagc)及文档平台(https://pyagc.readthedocs.io)开源发布。
仿真技术已成为大规模训练和评估家庭机器人的关键工具,但现有环境难以体现真实室内空间的多样性与物理复杂性。当前场景生成方法仅能创建缺乏密集杂物、活动家具及机器人操作必需物理属性的稀疏布置空间。我们推出SceneSmith——一种分层智能体框架,能够根据自然语言提示生成可直接用于仿真的室内环境。该框架通过建筑布局、家具摆放到小物件填充的递进式构建流程,每个阶段均由设计师、评审员与协调器三类视觉语言模型智能体交互实现。该框架深度融合了静态物体的文生3D资产生成、活动家具的数据集检索以及物理属性估算技术。SceneSmith生成的对象数量达到现有方法的3-6倍,物体间碰撞率低于2%,且在物理仿真中96%的物体保持稳定。针对205名参与者的用户研究表明,其场景真实度与提示契合度的胜率分别达到92%和91%,显著优于基线方法。我们进一步验证了该环境可用于端到端的机器人策略自动评估流程。