每日精选AI研究论文及翻译
音频本质上是一种交互式模态,但如今的大型音频语言模型(LALMs)均为离线模型,而流式音频模型各自仅处理单一任务,例如流式语音识别或语音聊天。现在应当将它们统一为一个在线LALM:该模型通过始终在线的“感知-决策-响应”循环,实时聆听声音、环境与指令,并即时做出反应。我们将这一机制正式定义为“音频交互模型”,并通过Audio-Interaction模型实现——一个统一的流式模型,既能保留离线任务执行能力,又能新增在线通用音频指令跟随功能,涵盖从对话到全语音聊天的各类场景,并根据数据流的语义决定何时做出响应。为支持这一目标,我们提出SoundFlow框架,该框架端到端地实现了“感知-决策-响应”循环,从数据构建、训练到部署,均采用原生流式数据处理、理解感知式训练以及异步低延迟推理,以支持稳定的实时交互。此外,我们构建了StreamAudio-2M,一个包含260万条数据的流式语料库,覆盖7项基础能力与28个子任务;并构建了Proactive-Sound-Bench以评估主动音频干预能力。在8个基准测试中,Audio-Interaction在主流音频任务上保持了具有竞争力的性能,同时解锁了离线LALM无法实现的能力,包括实时语音识别、流式音频指令跟随以及主动协助。
我们推出了 Cosmos 3——一个全模态世界模型系列,旨在通过统一的混合变换器架构,联合处理并生成语言、图像、视频、音频及动作序列。通过支持高度灵活的输入输出配置,Cosmos 3 无缝融合了物理 AI 的关键模态,将视觉语言模型、视频生成器、世界模拟器及世界动作模型有效整合于单一框架之中。评估结果显示,Cosmos 3 在众多理解与生成任务中均达到了新的最优水平,证明了全模态世界模型可作为具身智能体可扩展的通用骨干网络。在技术报告撰写时,我们的后训练版 Cosmos 3 模型被 Artificial Analysis 评为最佳开源文本到图像及图像到视频模型,并被 RoboArena 评为最佳策略模型。为加速物理 AI 领域的开放研究与部署,我们在 Linux 基金会 OpenMDW-1.1 许可协议(https://openmdw.ai/license/1-1/)下,公开了代码、模型检查点、精心整理的合成数据集及评估基准,相关资源可通过 https://github.com/nvidia/cosmos 和 https://huggingface.co/collections/nvidia/cosmos3 获取。项目网站地址为 https://research.nvidia.com/labs/cosmos-lab/cosmos3。
深度调研代理通过搜索、工具使用、证据核查与答案合成等长程轨迹来完成任务。基于最终答案的评估能判断代理是否成功,但无法揭示轨迹中哪些环节导致答案不可靠。本文针对深度调研代理展开跨度级错误定位研究。我们从两个代理框架、三个骨干模型和三个基准测试中收集了2,790条真实轨迹,将原始日志转化为语义跨度,并通过大语言模型辅助的专家评审标注有害错误跨度。基于这些标注,我们构建了TELBench——一个包含1,000个实例的基准测试,用于识别正常探索、搜索失败、暂定假设与无害噪声中的错误跨度。我们进一步提出DRIFT,一种以主张为中心的审计框架,该框架追踪代理主张,核查其在轨迹证据中的支持程度,并标注那些因无依据或矛盾的主张而影响答案路径的跨度。跨模型族与审计框架的实验表明,DRIFT将跨度级错误定位与首次错误准确率提升了最多30个百分点。本研究为深度调研代理的可靠性提供了过程层面的新视角。
基于评分标准的强化学习(Rubric-based RL)采用大语言模型作为评判者(LLM-as-a-Judge, LaaJ)依据评分标准对模型输出进行打分,以此作为奖励信号。然而,策略模型可能利用评判者中存在的潜在偏见,导致奖励破解(reward hacking),产生无效甚至不安全的训练结果。在实际的基于评分标准的强化学习中,此类破解行为往往表现微妙,且与多种评判者偏见相互纠缠,使得分析、检测和缓解变得困难。本文提出CHERRL——一种用于基于评分标准强化学习的环境可控破解系统。通过向LaaJ注入已知偏见,CHERRL能够稳定复现奖励破解现象,明确观察奖励发散过程,并精确识别破解行为的触发时刻。这为研究基于评分标准强化学习中奖励破解的机制与缓解策略提供了清晰的实验平台。为展示其实用性,我们从可发现性与可利用性两个角度分析了不同评判者偏见,并探索了一种基于智能体的自动检测系统,用于从训练日志中识别奖励破解的触发点。相关代码与环境已在 https://github.com/THUAIS-Lab/CHERRL 公开。
少步蒸馏已成为加速先进视觉生成模型的有效策略,然而先前的研究主要聚焦于蒸馏目标。本文从互补视角重新审视少步蒸馏,重点关注关键影响学生模型性能的训练方案。以Qwen-Image-2.0为典型案例,我们系统研究了统一文本到图像生成与指令引导的图像编辑蒸馏中的三个因素:数据组成、教师指导以及任务混合。我们的实证分析揭示了若干非直观行为,这推动了Qwen-Image-Flash的发展。总体而言,我们的结果表明,有效的少步蒸馏不仅需要精心设计的目标,还需要对更广泛的训练流程进行原则性的组织。
多模态智能体在机器人、增强现实和自动驾驶领域,需要从连续以自我为中心的信息流中推断位置和布局,往往需要借助当前视野之外的证据。现有基准测试要么在完整视频上进行离线评估,要么聚焦于事件而非空间结构。我们提出了OVO-S-Bench,这是一个完全人工标注的流式空间智能基准测试,包含来自348个源视频的1680个问题。标注工作由12名经过训练的标注人员完成,每人同时担任盲审交叉复核员,总共耗时约804人小时进行多轮质量保证。每个问题都带有查询时间戳和证据区间,在评估时,模型只能看到查询之前的前缀信息。问题涵盖四个抽象层级:即时自我中心感知、时空上下文追踪、空间模拟与推理,以及以环境为中心的地图构建。在38个专有和开源多模态大语言模型中,Gemini-3.1-Pro以59.2分落后人类专家的86.6分达27个百分点,其中以环境为中心的地图构建是主要瓶颈。值得注意的是,经过流式处理和空间微调的多模态大语言模型表现甚至不如其基础模型。此外,我们发现思维链推理在缺乏信息流支撑时会放大空间错误。通过揭示这些局限性,OVO-S-Bench为下一代流式空间多模态大语言模型建立了一个高要求的测试平台。
大型推理模型(LRMs)得益于基于思维链(CoTs)的可验证奖励强化学习(RLVR),取得了显著进展。然而,由于长思维链天然包含试错过程,而主流RLVR方法选择结果正确的思维链轨迹进行记忆,长思维链中的冗余探索不可避免地得到强化,从而导致LRMs的“过度思考”问题。先前解决该问题的尝试主要倾向于给予更短轨迹更多优势,但其学习信号仍基于结果,无法减少对长思维链中冗余探索的记忆。为此,我们提出ThoughtFold框架,利用细粒度的偏好学习来减少冗余探索,实现高效推理。ThoughtFold采用内省策略识别每个正确轨迹中的冗余,生成一系列候选子轨迹。基于这一谱系,我们引入一种掩码偏好优化目标,明确惩罚冗余探索,并鼓励模型直接连接关键推理片段,从而有效地将其推理链折叠为更简洁的路径。大量实验表明,ThoughtFold显著提升了效率。它使DeepSeek-R1-Distill-Qwen-7B的令牌使用量减少约56%,同时保持了最先进的准确性。
随着多模态模型向长视频理解方向发展,记忆逐渐成为一项关键能力。尽管在视频数据集与基准测试方面已有大量投入,现有工作主要聚焦于感知与推理能力,缺乏对记忆能力的系统性评估:模型记住了什么、信息被保留下来的忠实程度如何、以及记忆在干扰条件下的鲁棒性如何。为弥补这一空白,我们提出M^3Eval——首个用于探究多模态模型中不同记忆维度的综合评估框架与基准。基于认知心理学理论,我们精心设计构建了能分离记忆关键方面的任务。借助M^3Eval,我们在代表性多模态模型上开展了大量实验,揭示了其普遍存在的弱点与独特行为模式。研究发现:模型在处理并行视频流时难以维持分离表征;其干扰模式与人类记忆存在显著差异;在空间域中的记忆溯源可靠性高于时间域;且符号记忆能力有限。总体而言,我们的基准为未来研究提供了宝贵资源,而研究结果则凸显了记忆这一基础但尚未充分探索的能力,并为设计更有效的多模态模型记忆机制提供了启示。我们的代码与数据集已在https://pku-value-lab.github.io/m3eval-homepage 上公开。
多智能体推理系统采用“生成再传递”范式,迫使端到端延迟随流水线深度呈线性增长。我们提出StreamMA——一种多智能体推理系统,将每个推理步骤一旦生成便立即流式传递给下游智能体,通过流水线化相邻智能体来降低延迟。令人意外的是,这种流水线化也提升了有效性:由于多步推理质量非均匀分布,早期步骤比后期步骤更可靠,因此使用这些可靠的早期步骤而非完整推理链,可避免易出错的后期步骤误导下游智能体。我们首次通过串行、流式与单协议协议的闭式联合分析,形式化地推导出这两种优势,得出有效性次序、加速上限与成本比。在涵盖数学、科学与代码的八个推理基准、两个前沿大语言模型(Claude Opus 4.6与GPT-5.4)以及三种拓扑结构(链式、树状、图式)上,StreamMA均优于两个基线(在HMMT 2026、Claude Opus 4.6-high上平均提升7.3个百分点,最高提升22.4个百分点)。除上述贡献外,我们还发现一种“步级缩放定律”:增加每个智能体的步骤数量能持续提升有效性与效率,这是一个与智能体数量缩放正交且可组合的新缩放维度。
我们提出了Echo-Infinity,一个面向实时无限视频生成的自回归(AR)框架,采用可学习的演化记忆,以恒定代价动态过滤、抽象和压缩任意长度历史信息。现有方法主要依赖预定义的KV缓存调度、固定比例的启发式压缩或推理时的RoPE适配来管理记忆。由于缓存窗口有限且忽略了自回归生成噪声,这些设计不可避免地会丢失历史信息并放大累积误差。受人类记忆巩固机制启发,Echo-Infinity用可学习的记忆查询(Memory Query)替代了手工设计的记忆管理方案。当过去帧从局部窗口中被逐出时,这些查询通过注意力机制和门控机制进行更新。查询与视频扩散变换器(DiTs)进行端到端联合优化,形成一种支持任意压缩比率的演化记忆,其计算量恒定且与视频长度无关。它们还充当可泛化的生成先验,即使仅使用优化后的初始状态也能提升生成质量。我们进一步引入了统一相对RoPE方案(Unified Relative RoPE Recipe),该方案将锚定帧(sink frames)固定在id 0处,并让最新帧的id在训练和推理过程中最多增长到DiTs预训练的最大时间RoPE id,从而摆脱有限RoPE约束的限制,并缩小训练与推理之间的RoPE外推差距。在长视频和短视频生成任务中,Echo-Infinity达到了最先进的性能,并且据我们所知,首次展示了超过24小时(>130万帧)的实时滚动生成能力,为无限视频生成开辟了一条实用路径。
大语言模型智能体正迅速从编码助手发展为自主软件工程系统。然而,现有的评估方法仍主要集中于静态、孤立且短视的基准测试,无法捕捉真实生产工作流的动态复杂性。因此,基准性能可能难以反映在涉及长执行链、工具交互、依赖管理和迭代反馈循环的真实运行时环境下的实际能力。为此,我们提出RAMP,一个基于真实生产的用于评估长周期软件工程智能体的基础设施。RAMP基于YatCC集成平台,通过标准化的编排和执行接口提供统一的运行时评估架构。RAMP引入了具有串行依赖关系和复杂工具链交互的真实编译器构建工作负载,同时配备阶段性恢复机制,用于分析部分工作流失败下的执行行为。该框架进一步整合了面向效用的多维指标,共同评估结果质量和过程效率。我们对15个主流模型进行了运行时评估,观察到传统孤立基准测试难以察觉的显著能力退化。任务完成率在串行工作流中逐步崩溃,从初始阶段的100%降至最终阶段的仅20%,且评估模型均未能成功完成整个流水线。运行时分析揭示了系统性故障传播和显著的资源低效,同类模型间的计算成本差异高达三个数量级。这些发现表明RAMP推动智能体模型评估向持续、运行时可观察且基于真实生产的方向发展。
在策略自蒸馏中,语言模型基于特权上下文来监督自身生成过程,这为稀疏奖励强化学习提供了密集监督的潜在来源。实际上,该过程可实例化为一种辅助性的全词汇学生到教师的逆库尔巴克-莱布勒散度损失函数。为此,我们提出了SDPG——一种自蒸馏策略梯度框架,该框架结合了组相对验证器优势、归一化标准差、精确的全词汇在策略自蒸馏以及参考策略KL正则化。实验表明,SDPG在稳定性和性能上均优于RLVR和自蒸馏基线方法。代码已开源至 https://github.com/lauyikfung/SDPG。
记忆是长周期LLM智能体不可或缺的能力,使其能够保存并利用在长期交互中积累的信息。现有的记忆增强型智能体方法通常通过强化学习在下游任务上进行端到端训练。然而,为记忆密集型场景收集高质量标注问题成本高昂,且由此产生的训练数据往往缺乏覆盖通用记忆行为的足够多样性。本文提出MemTrain——一种自监督训练框架,旨在全面提升LLM智能体的上下文记忆能力,从而更有效地支持下游后训练。MemTrain在无标注维基百科语料上引入两个耦合代理任务:(1)端到端掩码重建目标,要求模型在多次记忆更新后恢复被掩码实体,从而从最终结果角度促进记忆维护;(2)中间记忆召回目标,要求模型利用中间记忆状态重建被掩码的历史信息,从而在交互过程中促进忠实压缩与记忆完整性。两个目标通过GRPO联合优化。在长文本问答和基于搜索的问答基准上的大量实验表明,MemTrain能够持续提升不同模型在下游记忆密集型推理中的表现,相较于直接进行任务特定后训练,最高可获得17.67个百分点的增益。
宽基线匹配(WBM)要求融合几何理解、视角变化、细粒度感知与遮挡推理能力,这使得它成为评估部署于物理环境中的多模态大语言模型(MLLMs)空间推理能力的严苛测试平台。然而,现有MLLMs缺乏针对这些能力的系统性评估与训练框架。我们提出ReasonMatch-Bench,该基准根据视角位移幅度与匹配粒度分层,涵盖室内、室外及物体中心场景,实验表明当前MLLMs在细粒度宽基线对应任务中仍存在显著不足:在包含90个样本的困难子集上,人类标注者达到84.0的F1分数,而现有最优基线仅达37.2。为弥合这一差距,我们构建了可扩展的数据生成流程,能够从大规模视频-3D语料库(包括RGB-D视频和运动恢复结构重建数据)中自动提取宽基线视角对,从而产生多样化且可验证的监督信号。进一步地,我们提出动态对应强化学习(DCRL)方法,该方法结合图像级视角递进与点级对应课程,通过可验证奖励提升WBM训练效果,而无需显式的思维链(CoT)监督。大量实验表明,DCRL显著提升了ReasonMatch-Bench的性能,并且能够迁移至相关空间基准任务,同时在多个基准测试中保持甚至适度提升了通用视觉理解能力。
网络上丰富的程序性知识对于帮助智能体解决长期任务具有巨大潜力。然而,这类知识往往呈现多模态、异质、带有噪声的特性,且默认由人类执行者操作,因此难以直接作为智能体所需的技能使用。为弥合面向人类指南与智能体可执行技能之间的鸿沟,我们将该问题形式化为"指南到技能学习":将现实指南转化为可执行技能,并从智能体可观察的轨迹中持续改进这些技能。为评估现有智能体在此任务上的能力,我们首次针对该问题设计了基准测试集MMG2Skill-Bench。我们进一步提出MMG2Skill框架,这是一个闭环系统,可将指南编译为可编辑技能,在任务执行期间用这些技能条件化固定的视觉语言模型(VLM)智能体,并通过轨迹级根因反馈(而非基准测试分数)来修正技能。在图形用户界面控制、开放式游戏和策略卡牌游戏三类场景中,结合六种VLM骨干网络,MMG2Skill在每个模型-域设置下均持续优于原始基线智能体,在所有骨干网络上实现宏观平均增益12.8至25.3个百分点。消融研究表明,直接使用原始指南提示智能体反而会降低性能,而结构化技能构建与轨迹驱动修正对于观察到的改进均不可或缺。在成功可推断的任务中,基于分析器的提前停止可进一步防止后期性能退化,并在成功信号校准得当的情况下节省25%至53%的尝试次数。
车道级地图是自动驾驶和车道级导航的关键基础设施,然而为数百个城市构建并维护标准化车道网络仍高度依赖人力。近年来,端到端矢量化制图方法能够直接从传感器数据预测车道几何结构和拓扑关系,但这些方法通常将制图规范与交通规则视为隐含的、依赖数据集的监督信息。此外,在复杂场景(如标线磨损、缺失或被遮挡)中,仅凭视觉证据往往难以确定正确的车道配置,导致规范违例成为人工后期编辑的主要来源。我们提出MapAgent,一种工业级智能体架构,通过增强矢量化主干网络实现符合规范的车道地图生产。MapAgent并非简单地在地图预测中加入智能体循环,而是将主干感知与显式规范验证、约束感知推理以及确定性地图编辑相结合,形成受边界约束且由验证驱动的"裁判-规划器-执行器"循环。其中,视觉语言裁判通过联合检查视觉证据与草稿矢量来诊断错误,而调用工具的执行器则生成最小化修正编辑并进行编辑后重新验证。为实现面向城市规模生产的可扩展性,MapAgent仅在主干网络置信度较低的图块上选择性触发,在保持吞吐量的同时增加适度开销。在真实数据集上的实验表明,该方案在强生产基线基础上持续提升性能,尤其在复杂场景和长尾场景中效果显著。此外,MapAgent已集成至百度地图,支持全国360余个城市的路网级地图生成,并将整体生产自动化率提升至95%以上,充分验证了其在大规模车道级地图生成中的实用性与有效性。
在大语言模型的同策略蒸馏(OPD)中,训练范式正从全迹KL监督转向更具选择性的方法。近年来,OPD方法越来越关注如何选择学习轨迹、哪些令牌最具信息量以及哪些监督信号最为可靠。受此趋势启发,我们重新审视了OPD的优化粒度,并提出\fireicon\ FiRe-OPD(过滤后重加权),该方法在轨迹和令牌两个层面联合调整监督信号。具体而言,FiRe-OPD首先通过过滤轨迹去除低质量生成样本,然后对保留轨迹内的令牌应用软重加权机制,以突出信息性较强的令牌。与硬性令牌选择相比,FiRe-OPD利用软加权机制有效减轻信息损失并提升优化稳定性,从而实现更细粒度的OPD优化。我们在强到弱、单教师和多教师设置下验证了FiRe-OPD的有效性,并展示了其相较于近期令牌级OPD方法的优越性(例如,在强到弱设置下AIME 2024提升6.25分,在多教师设置下Miner提升18.81分)。我们的代码已开源:https://github.com/YuYingLi0/FiRe-OPD。
我们提出了AAD-1,一种用于单步自回归图像到视频生成的异步对抗蒸馏框架。现有最先进方法采用对抗蒸馏,但存在运动崩溃和训练不稳定的问题,导致生成静态视频。AAD-1通过架构和训练策略中的两个关键设计解决了这些挑战。我们的核心架构见解是打破生成器和判别器之间的对称性:生成器保持因果性以保留自回归采样能力,而判别器则双向关注完整的时空上下文,并为整个视频序列生成单一的全局真实性评分。这种不对称设计使判别器能有效检测导致自回归生成中运动崩溃的全局时间故障和长期漂移。为稳定训练,我们引入分阶段策略,首先使用分布匹配引导出一个稳定的单步生成器,提供预热阶段使学生分布更接近教师分布,之后再开始对抗蒸馏。在VBench上的大量实验表明,AAD-1在单步自回归视频生成中达到了最先进性能。
前馈三维高斯喷溅方法能够在单次前向传递中,从带有位姿或无位姿的图像重建场景。然而,现有方法为每个输入像素预测一个高斯体,使得表示预算与相机分辨率挂钩,而非场景复杂度。一堵平整的墙壁与纹理丰富的物体,尽管几何需求迥异,却会产生同等数量的高斯体。我们提出ZipSplat,一种基于令牌的前馈模型,将高斯体布局与像素网格解耦。多视图骨干网络提取密集的视觉令牌,并通过k均值聚类将其压缩为一组紧凑的场景令牌。交叉注意力与自注意力机制精炼这些令牌,再由轻量级多层感知机将每个令牌解码为一组具有无约束三维位置的高斯体。由于聚类操作在推理时执行,单个训练模型即可覆盖质量-效率曲线,无需重新训练。ZipSplat无需真实位姿或内参,但以比像素对齐方法少约6倍的高斯体数量,在DL3DV和RealEstate10K上分别超越最优无位姿基线2.1dB和1.2dB PSNR,创下新纪录。此外,它能够零样本泛化至Mip-NeRF360和ScanNet++,超越所有可比基线。项目页面请访问:{https://veichta.com/zipsplat}。
高质量预训练数据是现代语言模型的核心要素,但德语资源的开发程度远不及英语同类资源:其规模通常较小、筛选不够精细、文档记录薄弱,且很少通过受控训练实验进行验证。我们提出KletterMix——一个专为语言模型预训练与退火训练设计的高质量德语语料库,旨在为自然语言处理与建模社区提供可复用的数据集制品。KletterMix通过将先进英语预训练语料库翻译为德语构建而成,保留了文档边界、元数据、源结构及主题多样性。这种构建方式产出的德语语料库既具备现代预训练数据集的规模与多样性,又能直接与其英语源数据对比。我们通过广泛的语料库层面分析对数据集进行文档化,包括翻译质量、文档长度分布、主题覆盖、源构成及地理元数据。利用COMETKiwi评估表明,跨不同领域的翻译文档均达到高质量,表明精细翻译能较好保留原始语料的语义与风格丰富性。除数据集构建外,我们还将KletterMix作为训练数据进行评估。通过针对现有德语语料库的受控预训练与退火训练消融实验,我们发现基于KletterMix训练的模型在德语下游评估中实现可衡量的性能提升。这些结果表明,经精细筛选的翻译数据能显著增强德语预训练数据生态。
科学与工程进步本质上是一个长周期迭代过程:提出变更、运行实验、测量结果,并持续优化人工制品。然而,现有前沿模型基准测试主要评估单轮响应或短周期智能体轨迹,未能捕捉长时间跨度内持续迭代改进的挑战。为填补这一空白,我们提出了AutoLab——一个面向超长周期闭环优化的全新基准。AutoLab包含36个由专家精心设计的真实任务,涵盖四个不同领域:系统优化、谜题与挑战、模型开发以及CUDA内核优化。每个任务均以正确但刻意次优的基线为起点,要求智能体在严格的挂钟时间预算内对其进行改进。对17个前沿模型的评估显示,成功的主要预测因素并非智能体首次尝试的质量,而是其反复执行基准测试、编辑并整合经验反馈的持续性。尽管claude-opus-4.6展现出强大的长周期优化能力,但大多数前沿模型(包括若干专有模型)要么过早终止,要么在预算耗尽时进展甚微。这些结果凸显了时间感知与持续迭代在自主智能体中的重要性。我们开源了完整的基准测试、评估框架及任务组件,以加速迈向真正具备长周期能力的智能体研究。
现有的MLLM生成网页工件的基准测试通过局部证据评估交互,却忽略了决定页面是否正常工作的需求驱动状态与转换。我们提出WebRISE,它将任务需求编译为交互契约图(ICGs),包含可观察状态、用户意图转换以及DOM/视觉断言,以实现与具体实现无关的浏览器执行。WebRISE涵盖五种输入模态(文本、Markdown、草图、图像、视频)下的442项任务,包含5,495个状态转换和5,271项需求检查,将用户明确表述的功能与隐式的产品级约束区分开来。在14种MLLM中,即使最强模型也仅达到65.6%的转换有效性和66.3%的需求覆盖率,且视觉质量无法作为行为表现的代理指标(Qwen3.6-35B-A3B在Markdown输入下视觉得分V=80.8,但转换得分T=15.5)。视频输入提供了最强的交互信号(隐式覆盖率相比文本提升+10.6个百分点),但隐式约束依然存在;缺陷注入实验表明,基于ICG的评分检测状态错误的效率是检查点式评估的2到16倍。
结构化财务审计验证对语言模型智能体来说具有挑战性,因为其正确性依赖于结构化的证据而非纯文本。模型必须将报告的事实与分类概念关联起来,遍历计算或维度关系,并在应用审计规则之前重新计算预期值。我们提出AuditFlow,一种基于图的多智能体框架,将自适应搜索与确定性验证分离。AuditFlow从静态的美国通用会计准则(US-GAAP)分类图与动态的XBRL申报图中构建符号环境,并通过类型化工具提供事实检索、分类遍历、数值检查和规则评估等功能。两名初级审计员分别从监管和证据角度审查每个案例,而高级审计员则解决分歧并可根据需要要求进一步调查。最终报告通过证据聚合进行融合,生成审计结论、预期值、证据链和可信度评分。在基于FinAuditing构建的FinMR样本上,AuditFlow在GPT-5.5下达到82.09%的联合审计准确率,超出最强基线14.93个百分点。去除确定性检查后准确率降至17.91%,这表明符号环境执行了模型无法可靠替代的验证步骤。
扩展人形机器人的移动操作能力,需要机器人兼容的演示数据,涵盖多样化的物体、全身运动以及场景几何结构。然而,遥操作和动作捕捉难以扩展,因为每次数据采集都依赖于物理设备、穿戴传感器的演员和机器人操作。我们提出GRAIL,一个全虚拟的数字生成流水线,仅在部署前保持全虚拟状态:它通过组合3D资产、仿真就绪场景以及视频基础模型(VFMs)的先验知识来合成交互,无需重建物理环境或对机器人进行遥操作。与从无约束的野外视频中直接重建不同,GRAIL从完全指定的3D配置开始,在视频生成之前便已知物体几何、相机参数、度量尺度、环境深度以及机器人比例的角色,并在重建过程中重复利用这些信息。这种特权设置更好地约束了4D恢复,使得基于模型的物体跟踪、人体运动估计以及交互感知优化能够重建度量的4D人-物交互(HOI)轨迹,同时减少深度模糊和形态不匹配问题。我们将恢复的运动重定到人形机器人上,并训练互补的任务通用跟踪器:一个用于操作的物体感知潜在适配器和一个用于地形穿越的场景感知跟踪器。GRAIL生成了超过20000个序列,涵盖拾取、物体操作、坐姿以及地形穿越。仅使用GRAIL生成的数据,我们通过仿真到现实(sim-to-real)流水线训练第一人称视觉策略,并将其部署在Unitree G1人形机器人上,在多样化物体拾取任务中实现了84%的真实世界成功率,在爬楼梯任务中实现了90%的成功率。
计算机使用代理将语言模型从文本生成扩展到与文件、终端、浏览器和外部工具的持续交互。这一转变带来了安全风险,这些风险难以通过孤立的提示或最终响应来检测,因为危害往往仅通过多步执行轨迹显现,而其中的单个动作在局部看似无害。我们引入了BraveGuard,这是一种自我进化的防御框架,用于从开放世界的威胁信号和真实的代理轨迹中训练防护模型。BraveGuard挖掘近期研究来源以识别新兴风险和攻击模式,将其实例化为可执行的计算机使用任务,收集代理的推演结果,并推导出轨迹级监督信号用于防护模型训练。随着新威胁和验证失败的出现,该流程可重复执行,从而形成一个自适应的防御循环,而非静态的、基准驱动的训练过程。我们通过训练多种防护骨干模型(包括Qwen3-Guard和Llama-Guard变体)来实例化BraveGuard,并在轨迹级代理安全基准上评估由此产生的防护模型。BraveGuard在计算机使用轨迹上持续改进安全检测性能。在AgentHazard基准上,相比现成的防护模型,其检测精度大幅提升,在平均防护模型设置下准确率从38.79%提升至82.38%。这些结果表明,基于开放世界威胁发现和真实代理执行的防护监督能够超越固定的分类体系和合成提示级数据,改进安全监控。BraveGuard为面临不断演变的现实世界风险的计算机使用代理提供了一条可扩展的自适应防御路径。
前沿大语言模型的快速发展导致了广泛的基准测试饱和,限制了现有数据集区分模型能力或提供有效训练信号的能力。例如,在LiveCodeBench上,前沿模型在简单子集上Pass@1超过99%,且在各难度级别平均Pass@1超过90%。构建新的、具有挑战性的数据集通常需要大量人力投入,这成为进展的瓶颈。我们提出BenchEvolver,一种以解决方案为中心的进化框架,可自动将现有的编程问题转化为更难的变体。BenchEvolver并非从头生成问题,而是通过结构化变换演化参考解决方案,并从演化后的解决方案中推导出相应的题目描述和测试用例。这种设计将生成过程建立在可执行的语义基础上,使得能够规模化构建高质量、多样化且难度适中的任务,并具备可验证的正确性。将BenchEvolver应用于LiveCodeBench和SciCode后,我们获得了难度显著提升的任务,同时保持了有效性、参考正确性和多样性。我们进一步精选出LiveCodeBench-Plus,一个包含91道题目的基准测试,其中融合了演化后的任务和原始LCB-v6中的困难任务,在前沿模型上Pass@1范围为27.5%至62.6%,恢复了对强编码模型的清晰区分能力。重要的是,即使是生成这些任务的模型,对其自身而言演化后的任务仍然具有挑战性,从而支持自我改进。我们还证明,在演化后的LCB任务上进行强化学习可提升留出编码性能:对于gpt-oss-20b模型,种子+演化训练在LCB v6 Hard和LCB-Pro Easy子集上分别获得+8.7和+8.3的Pass@1提升,相较于仅种子训练,增益分别高出70.7%和34.8%。我们的结果表明,BenchEvolver能够将饱和的基准测试转化为前沿级的评估套件和可复用的训练信号。
在没有集中控制的情况下,一个智能体种群如何通过自组织和自适应形成更强的集体智能?受弗里德里希·哈耶克关于市场去中心化协调的经济学理论启发,我们通过一个智能体经济系统研究此问题——智能体通过竞拍争夺行动权、交换支付并积累环境奖励带来的财富。这些简单的经济信号实现了去中心化的信用分配,在无需全局编排或显式通信协议的情况下驱动规划行为。种群通过经济选择演化:高效智能体积累财富并通过开发机制产生变异,低效者则破产并通过探索机制被替换。研究表明,从弱智能体初始化开始,该经济系统能涌现出多步推理策略,并在数学推理、金融研究、科学研究、加速器设计及分布式系统优化五项智能体任务中超越强大的单体基线模型。我们进一步提供了关于经济动力学如何塑造智能体行为的理论洞见,将局部激励与长期全局表现联系起来。我们的研究结果为多智能体智能开辟了新路径:无需设计协调机制,只需构建去中心化激励结构,协作行为即可自动涌现。
理解神经网络训练过程中结构化内部结构的涌现是深度学习研究的核心问题。我们通过群组合成任务探究这一现象——训练一个双层神经网络预测有限群G中元素g₁★g₂的结果。通过将投影梯度流提升至傅里叶域,我们证明训练动力学由表示论能量泛函上的黎曼梯度上升控制。我们证明,在随机初始化条件下,该流驱动每个神经元几乎必然收敛至单一不可约表示,同时跨层傅里叶系数实现旋转秩一的排列对齐。该框架为特征学习提供了表示论解释,并刻画了矩阵值群表示的一种新型低秩压缩现象。此外,对于阿贝尔群,我们给出了完整的总体层面描述:随机初始化促进了非平凡表示上的均匀多样化,并诱导出哈达玛均匀相位,通过多数投票机制共同逼近指示函数。我们进一步证明相位对齐与表示竞争均以指数收敛速度涌现。
权值空间模型合并通常被形式化为检查点上的代数操作,但在大语言模型(LLM)规模下,限制性资源往往是必须读取的专家权值集合。本文提出MergePipe,一种预算感知的执行层,将LLM合并问题转化为专家访问集合问题:在给定合并算子与共享权值坐标系下的检查点族时,在显式I/O预算下选择需要访问的专家增量块。MergePipe对参数块建立索引、构建确定性访问计划,并通过可回放清单执行诱导出的有预算合并。该计划本身具备预算合理性,在满预算下可恢复全量读取合并;对于固定系数加法算子,遗漏更新误差受遗漏增量范数的约束。在Qwen和Llama的合并工作负载中,MergePipe将专家读取I/O降低至多一个数量级,并实现最高11倍加速。代表性预算扫描显示,与全量读取合并相比,参数偏差为O(10^{-3}),且下游基准测试无单调退化。
训练数据归因旨在将模型预测追溯至其训练数据。该领域的黄金标准依赖因果干预,通过观察数据增减时模型的变化来实现,但对于大语言模型而言,反复重新训练在计算上极具挑战。因此,大多数方法利用梯度在参数空间近似这种效应。然而,追踪数十亿参数的梯度不仅成本高得难以承受,且依赖于局部近似。本文提出一种思路转变:不再估计参数变化,而是在激活空间中建模训练数据的功能效应。我们引入STRIDE(基于导向的训练数据影响力分解)框架,该框架将训练数据归因形式化为压缩感知框架下的稀疏恢复问题。STRIDE学习轻量级“导向算子”,模拟基于数据子集训练引发的行为偏移。通过测量这些算子如何扰动测试预测,我们利用稀疏线性分解恢复单个训练样本的影响力。STRIDE在大语言模型预训练归因中达到最先进水平,同时比先前方法快一个数量级(13倍)。我们进一步通过数据选择、数据污染检测和定性分析等下游应用验证其实用价值。
道义推理是指通过将明确的规则和政策应用于具体案例事实来回答问题,例如根据法规计算纳税义务或确定移民上诉结果。基于大语言模型的道义推理面临的一个关键技术挑战是,相关规则集可能冗长且相互交叉引用,因此模型仍可能无法定位特定推理步骤所需的规则。我们提出了道义代理推理(DAR),这是一种按需与法规交互的代理推理框架。我们在DeonticBench困难子集上使用多个框架对DAR进行了评估。在这些设置中,我们发现代理框架能够推动道义推理任务的前沿进展,但改进并非均衡:较弱模型通常在数值任务上表现下降,同时消耗远超以往的令牌量。
大型语言模型(LLMs)日益被提议作为临床代理,但静态的单轮基准测试无法捕捉模型在诊疗过程中如何动态地提供护理:收集信息、制定治疗方案,并在连续的患者状态中调整长期管理。医学教育长期以来通过标准化病人(SP)应对类似挑战:受过训练的演员能够一致地扮演临床病例,从而实现逼真的练习和客观、脚本化的评估。在此,我们提出MedSP1000,一种源自SP的交互式临床代理评估基准,包含1,638个SP案例及24,602个经过同行评审的轨迹级评分标准。MedSP1000将经过同行评审的SP教学案例转化为可执行场景,配有明确的SP案例脚本、临床环境背景及经人工验证的结构化评分标准。在每次模拟评估运行中,临床代理与患者代理及环境控制器进行闭环交互,其行为在整个诊疗过程中依据原始材料中专家设定的标准进行评分。将MedSP1000应用于多种通用及医学专用LLMs,我们发现静态基准上的表现并不能可靠地迁移至此类教育场景。表现最佳的模型GPT-5.5仅完成了专家定义评分标准中的60.4%,而最强的医学专用模型达到40.0%;增加测试时计算并未产生可测量的提升。这些结果表明,当前LLMs(包括针对医学微调的代理系统)尚不足以可靠地整合进实际临床实践。更广泛地说,MedSP1000展示了过程级、SP式评估如何揭示单轮基准测试所遗漏的临床相关失败模式。
语音翻译系统日益涵盖语音到文本翻译(S2TT)、语音到语音翻译(S2ST)、离线翻译及流式生成,其输出在模态、语音实现和时间行为上存在差异。现有评估实践虽关注翻译质量、语音质量和时序质量等重要方面,但这些维度常通过独立协议进行评估,难以全面比较异构系统。为弥补这一不足,我们提出OpenSTBench——一个统一的多维度评估框架,将异质化的语音翻译输出组织为共享评估格式。OpenSTBench同时支持离线与流式场景下的S2TT和S2ST系统,并联合评估翻译质量、语音质量、说话人保留、情感与副语言保真度、时序一致性及延迟。通过对代表性语音翻译系统的实验,我们发现翻译质量优异的系统在语音质量和时序质量上仍可能差异显著。OpenSTBench为分析这些跨维度差异提供了可复现的协议,并支持面向应用的语音翻译系统比较。代码与数据集开源地址:https://github.com/sjtuayj/OpenSTBench。
训练和扩展大型语言模型需要巨大的计算资源,这推动了高效次二次架构和基于原则的超参数调优方法的发展。尽管最大更新参数化(μP)已实现标准Transformer的零样本超参数迁移,但其在线性模型——尤其是那些具有结构化状态转换和复杂架构的模型——上的扩展仍基本未被探索。通过严格地在正向传播、门控机制和循环状态动态中传播坐标尺度估计,我们推导了门控Delta网络的缩放规则。语言模型预训练实验证实,我们的配置在AdamW和SGD优化器下均可实现跨模型宽度的稳定学习率迁移,而标准参数化则无法迁移,从而验证了我们分析的正确性和实际效用。
我们提出Stable-Layers,这是一个强化学习框架,通过仅利用视觉语言模型(VLM)的反馈来微调预训练的图层分解模型,从而消除了对成对监督的需求。以Qwen-Image-Layered为起点,我们应用Flow-GRPO和LoRA适配,对每张图像采样多个候选分解,用VLM进行评分,并基于组相对优势优化策略。关键挑战在于设计可靠的奖励信号:单独对样本评分的VLM倾向于将判断压缩到狭窄范围内,导致GRPO缺乏足以学习的组内方差。我们通过一个两阶段评估流水线解决了这一问题,该流水线将基于五个编辑中心标准的每个样本结构化评分与基于网格的校准步骤相结合,在此步骤中,VLM对所有候选分解进行并列重新评分。与基础模型相比,Stable-Layers在Crello数据集上生成的分解具有更强的图层分离能力、更少的空白或伪影图层,以及更低的每层重建误差。
尽管当前的多模态模型在开放式视觉编辑方面表现熟练,但实现精确的单答案编辑仍是一个重要障碍。为探究这一挑战,我们提出了PaintBench——一个可动态扩展的基准测试,聚焦于四大类共20种基础精确视觉编辑操作:几何变换、结构操控、颜色变化和符号推理。通过可配置复杂度的程序化生成,我们实现了无限且抗污染的评估套件,并结合确定性像素级评估,摒弃了易产生偏倚的评判模型。在11个图像编辑模型上,我们发现整体性能较低,当前表现最佳的行业领先模型仅达到17.1%(mIoU)。任务分解揭示了特别具有挑战性的操作类型(几何变换、多数结构操控、基于公式的颜色变化)以及模型专属的特化倾向。精细化的基准诊断进一步显示,场景变化(如目标数量、背景复杂度、配色方案和编辑区域大小)会引发性能下降。为检验PaintBench分数在应用任务性能上的泛化能力,我们创建了面向数据可视化编辑的程序化确定性评估(TinyGrafixBench),发现其与PaintBench分数呈现强线性相关(R² = 0.91,p < 0.001)。总体而言,PaintBench为衡量并推动精确多模态视觉编辑的进步奠定了严谨基础。
大型语言模型(LLM)智能体正从请求-响应助手演变为长时间运行的软件Actor:它们在模型调用之间维护状态,分叉子任务,等待外部事件,请求人工授权,生成工具,并执行必须被恢复和审计的副作用。本文提出Agent libOS,一种受库操作系统启发的LLM智能体运行时基座。Agent libOS运行在传统宿主操作系统之上;它不实现硬件驱动、内核态隔离或POSIX兼容操作系统。相反,它将智能体视为一个AgentProcess:一种可调度执行主体,具有进程标识、父子关系、生命周期状态、从AgentImage派生的工具表、类型化对象内存、显式能力、人工队列、检查点、事件和审计记录。其核心设计规则是:工具是类似libc的封装,运行时原语构成权限边界。文件系统访问、对象访问、休眠、人工审批、JIT工具注册以及外部副作用均在原语边界处,基于显式能力和策略进行校验。 我们描述了其设计、威胁模型、Python原型以及面向安全的评估。当前原型实现了异步调度、命名空间本地对象内存、运行时集成的人工审批、一次性权限授予、每个进程的工作目录、shell与镜像注册原语、基于libOS系统调用代理的Deno/TypeScript JIT工具、文件系统/对象桥接工具、可注入的资源提供者基座、确定性演示、真实模型冒烟脚本,以及截至撰写时的123项回归测试。Agent libOS并不致力于提升规划器的准确性,而是展示了一种运行时基座,在该基座中,长时间运行的LLM智能体可以被调度、授权、恢复和审计,而无需将工具分发作为信任边界。
人类能够毫不费力地感知空间布局、构建认知表征、推理空间关系,并将这种推理转化为日常三维环境中的行动。尽管最近的视觉语言模型(VLMs)在基于观测的空间感知与推理任务中展现出令人鼓舞的性能,但尚不明确它们能否构建连贯的空间理解、据此采取行动,并通过多轮反馈优化自身行为。为研究这一问题,我们提出了SpatialAct——一个基于模拟器、用于探究三维场景中动作条件空间推理的基准测试。从最具挑战性的场景(多轮交互式优化)出发,我们进一步设计了其分解形式(单步错误检测与修复),并辅以五项基础空间能力任务,用以诊断模型失败的潜在原因。实验揭示出“推理-行动”之间存在的明显差距:当前VLM在孤立的空间推理任务中表现良好,但在多轮反馈过程中难以维持连贯的空间信念、无法产生可靠的动作,其表现远逊于人类。这些结果表明,即使将底层控制抽象化,当前的VLM智能体仍缺乏在动作引发的环境变化下进行稳健空间状态跟踪的能力。
LLMs在风险决策任务中可能表现得谨慎,然而这些看似谨慎的输出并不一定意味着其与人类决策机制一致。我们以圣彼得堡博弈作为受控测试平台来探究这一差异——这是一个经典悖论,即期望收益无限大,但人类通常只愿意支付有限且较低的金额。我们通过一套结构化提示对28个LLM进行评估,其中包括:原始博弈;受控决策变体(分别扰动截断值、重复博弈次数、数字禀赋以及职业身份);要求模型以人类决策者身份进行推理的人类视角提示;以及基础模型与其指令调优版本的配对比较。在原始博弈中,大多数模型给出有限出价,呈现出类似人类的风险行为。然而,这种结果层面的相似性掩盖了显著的机制层面差异。受控变体揭示,模型并未维持原始博弈中观察到的人类类行为,而是往往转向条件性且计算理性的行为。人类线索提示和指令调优通常会降低出价并减少某些明显的异常现象,但大多数机制层面的响应模式基本保持不变。这些发现表明,风险决策中的行为对齐可能仅停留在表面层次:LLM可能产生类似人类的风险决策,却未展现出与人类一致的机制。因此,对LLM决策的高风险评估应当超越结果相似性,进一步检验这种对齐是否得到机制层面一致性的支撑。
Koopman理论将非线性动力学转化为线性谱问题。然而,在计算中,一切都取决于一个困难的有限维选择:可观测量必须具有表达性,在动力学下近乎不变,并且理想情况下与复合运算兼容。深度Koopman方法学习灵活的坐标,而结构保持方法则在固定字典上强制满足算子恒等式。我们通过引入深度嵌入乘性动态模态分解(DeepMDMD)来结合这些思想,该方法在强制Koopman乘积规则作为精确代数约束的同时,学习潜空间及其划分。训练过程交替进行精确的乘性算子更新和可微的潜聚类步骤,后者促进Koopman封闭性。最终在学习的潜单元上得到一个有限转移映射。其非零谱位于单位圆上,字典由动力学而非背景几何塑造,预测在潜坐标中完成后再解码到物理空间。在哈密顿、混沌和流体实例中,DeepMDMD学习到的字典比几何MDMD划分产生的字典更紧凑且动态上更连贯。它减少了谱污染,揭示了更丰富的连续谱结构,并在强噪声下给出稳定的预测。在高维流动中,包括一个158,624维的圆柱绕流和噪声下的Re=20,000顶盖驱动腔流,DeepMDMD保留了连贯结构,并在状态空间MDMD失效的情况下保持了长时间谱统计特性。这些结果提出了Koopman学习的一个实用准则:学习坐标,约束代数。
自回归网格生成通过将网格标记化为序列并以语言建模方式训练模型而受到关注。然而,现有方法存在两个根本性局限:(i)标记化效率低下,导致生成长序列标记,阻碍其扩展至高多边形网格;(ii)缺乏几何感知引导,生成仅基于全局形状嵌入而非局部表面线索。我们提出MeshWeaver,一种自回归框架,通过直接预测下一个顶点而非独立坐标,将网格生成视为表面编织过程。其核心是多层级稀疏体素编码器,通过三种互补方式将几何上下文注入生成过程:提供体素特征作为顶点表示,通过交叉注意力机制引导标记预测到体素特征,以及作为结构支架约束生成围绕输入表面。我们的层级化设计使得在单次解码步骤中实现从粗到细的顶点预测,同时将生成模型与三维几何紧密耦合。大量实验表明,MeshWeaver实现了18%的最先进压缩比,能够生成最多包含16K面的网格,并且在几何保真度上显著优于先前方法。
扩散模型已成为现代生成式AI的基石,推动着视觉、语言、音频及其他模态的进步。尽管取得了成功,这些模型仍存在幻觉问题——即生成超出真实数据分布支持范围的不可信样本,这降低了可靠性与可信度。在本工作中,我们首先通过实验验证了先前提出的假设:图像生成扩散模型中分数平滑性会导致幻觉,并提供了基于密度的视角。我们进一步将这一概念形式化,通过将幻觉概率质量与所学分数函数的Lipschitz常数建立关联。受此启发,我们提出一种方差引导的分数调制(VSM)策略,通过控制分数雅可比矩阵来降低分数平滑性,从而更准确地逼近真实分数,减少幻觉现象。在合成数据集与真实世界数据集上的实验结果表明,我们的方法可在保持高保真度与多样性的同时,将幻觉降低约25%,为构建更可靠的基于扩散的图像生成模型提供了原则性步骤。此外,我们还提出了两个具有极端语义变化的基准数据集,用于系统性评估幻觉。代码与数据集已公开于 https://github.com/bhosalems/VSM。
图语言模型(GLMs)已成为将大语言模型(LLMs)适配至图学习任务的一条有前景的路径。通过将图拓扑结构与节点信息转化为图标记,GLMs使得大语言模型能够联合处理结构化图输入与文本指令。然而,大语言模型内部如何解释这些图标记,以及图标记是否充当图结构的有意义载体,仍不明确。在本工作中,我们通过分析代表性GLM架构中图标记的行为,探究了大语言模型处理图信息的方式。 **发现。** 我们发现,GLM中图标记的内部显著性并不等同于图信息的利用程度。图汇标记始终表现为激活层级异常值:它们可通过少量隐藏状态维度上的巨大激活值识别,且偏向于较早的图标记位置。然而,这种激活层级的显著性并不意味着这些标记是图信息的主要载体。与语言模型及视觉-语言模型中的经典注意力汇聚点不同,图汇标记并不必然吸引查询标记的最大注意力权重。通过剪枝、重新定位和交换干预,我们证明图汇标记并非对下游预测最重要的语义或结构标记。 **影响。** 综上,这些结果表明,当前GLM将图结构映射至大语言模型标记空间后,所生成的图标记表示并未自然形成完全可用的拓扑感知内部表示;相反,它们展现出激活层级显著性与图语义效用之间的解耦。这种解耦揭示了现有图标记构造、放置及对齐机制的局限性。
大型语言模型通过扩展思维链推理提升了最终答案的准确性,但常存在令牌使用效率低下且缺乏推理过程可控性的问题。现有高效推理方法通过缩短、提前终止或压缩推理轨迹来控制思考长度,却未对模型如何思考进行显式控制。本文提出基于智能体的思维链导向(ACTS)方法,将推理导向建模为马尔可夫决策过程:控制器智能体在推理阶段自适应地引导冻结的推理器。在每一步,控制器观察推理轨迹与剩余思考预算,输出包含推理策略与导向短语的导向动作,该短语用于启动推理器的下一步生成。这种方法在保持推理器生成连续性的同时,实现了面向预算感知的策略控制以实现高效推理。我们通过多预算增强技术构建的合成导向轨迹初始化控制器智能体,并进一步采用基于预算条件奖励塑造的强化学习对其进行优化。跨多个基准的实验表明,ACTS在显著节省令牌的同时达到了与完整思考相当的性能,并在不同推理器与任务间实现了可控的准确率-效率权衡。代码已开源至 https://github.com/Andree-9/ACTS。
等变理论预测,架构对称性先验可将样本复杂度降低|G|倍;这一观点被广泛引用,但很少作为缩放定律进行测量,且未通过控制变量将先验与其混杂因素分离。针对受控的C_n对称任务,我们报告三项发现。第一,具有相同轨道大小和匹配计算量的错误群组控制比无约束更差(联合配对CI [+0.79, +3.26]排除零,估计量稳健);错位约束不仅无益,反而有害。第二,配备测试时轨道平均的数据增强基线完全匹配等变模型——跨匹配单元的逐周期验证曲线比特级一致——因此架构与增强之间的差距取决于非对称测试时计算,而非无条件存在。第三,相对交换率β_diff = 1.28在符号和量级上与理论值1.0一致(单层CI [+0.92, +2.05]);更保守的两层引导(种子×群组大小)将其扩大至[-0.63, +1.72](包含零),而在sqrt(2)间隔网格上的更细N复制无明确结论(点估计-0.82)。方法学贡献——抵消共享难度混杂因素的相对率估计量、错误群组控制以及预设的失败分类法——可迁移至任何强度可参数化的归纳偏置。诚实说明:主要估计量β_diff是在初步分析发现正斜率可识别性问题后事后采用的;该设计从未进行外部预注册;且首要数据基于粗N网格上七个群组大小的普通最小二乘法斜率。这是一项探索性研究,而非确证性测量;错误群组结果是最清晰的发现,也是我们报告时最有信心的结果。基于新种子的注册复制留待未来工作。
迁移学习旨在通过从源域迁移知识来促进目标域的学习。源域通常包含具有语义意义的样本(例如图像),以实现有效的知识迁移。然而,近期一项研究发现,由简单分布(如高斯分布)构建的噪声域,在只有少量目标样本被标记而大部分未标记的半监督设置下,可作为替代源域。基于这一令人意外的发现,我们提出一个名为**半监督噪声适应**(SSNA)的新问题,旨在利用合成的噪声域提升目标域的泛化能力。为解决该问题,我们首先建立了一个表征噪声域对泛化影响的泛化界,并据此提出噪声适应框架(NAF)。大量实验表明,NAF能有效利用噪声域收紧目标域的泛化界,从而提升性能。代码见 https://github.com/AIResearch-Group/SSNA。
强化学习(RL)已成为一种主流的后训练范式,使大语言模型(LLMs)能够从奖励中学习。我们观察到,社会规则在结构上与奖励函数相似:它们定义了可衡量的结果、阈值和例外情况,但往往只部分明确了制度意图。我们假设,RL训练过程可能利用这些漏洞,因此提出一个疑问:模型在RL过程中众所周知的奖励操纵倾向,是否会发展成一种后果更为严重的失败模式——社会漏洞利用,即发现社会运行规则中的漏洞。为研究这一现象,我们引入了SocioHack——一个包含72个社会环境场景的沙盒实验平台。研究发现,在这些环境中,奖励操纵自然出现,并导致监管漏洞的发现。模型学会了操纵社会规则,生成在技术上合规却违背监管意图的策略,而当前LLM的安全防护措施仅能提供有限的缓解效果。因此,收集真实环境中的反馈用于模型训练需要更加谨慎,我们亟需一种新一代的后训练范式,以便在社会中安全地迭代LLM。
AI眼镜为AI智能体作为个性化记忆助手提供了极具潜力的平台。要真正实现实用价值,此类系统需超越短期视频理解的能力,解决人类在日常、个人或社交场景中,通过纵向第一人称视频流所经历的记忆缺口问题。然而,现有的第一人称数据集主要聚焦于动作识别或基于短视频片段的通用问答,衡量的是感知能力而非真实的人类记忆需求。我们提出SuperMemory-VQA,这是一个用于评估AI助手在实际长期记忆任务中表现的第一人称视觉问答(VQA)数据集。该数据集包含使用AI眼镜记录的52.9小时日常活动,涵盖同步RGB视频、音频转录、眼动轨迹、惯性测量单元(IMU)数据及SLAM轨迹数据。通过人工验证的标注流程,我们构建了4,853个有据可依的问答对,覆盖目标与位置记忆、意图回忆、视觉场景回忆、时间线重构、对话记忆以及跨上下文检索等任务。每个问题均以多项选择题形式呈现,并明确设置“不可回答”选项,以检测幻觉鲁棒性。对主流智能体框架及大语言模型(LLM)骨干网络的基准测试表明,现有系统在真实世界的记忆任务中仍远未达到可靠水平,这凸显了开发新型架构的必要性——此类架构应能实现基于证据的AI记忆,仅在证据充分时给出回答。参与者调查进一步证实,我们的问题具有现实性、实用性,且与日常记忆需求相吻合。
计算化学与生物物理学中一个长期存在的挑战,是如何高效地对分子的玻尔兹曼分布进行采样。生成式建模的进展被提出用于解决传统采样技术的局限性,通过消除模拟计算成本来突破瓶颈。一个具有前景的方向是沿温度梯度迭代微调扩散模型,在推理阶段退火过程中通过重要性采样生成训练数据。然而,这些方法需要计算评分场上的散度来估计重要性权重,导致其在较大系统中难以处理。本文提出可扩展推理阶段退火(SITA),该方法通过重新训练基于流的模型,逐步在更低温度下生成样本,并利用基于能量的模型实现快速代理似然。我们在丙氨酸二肽和丙氨酸三肽任务上展现了最先进的性能,同时避免了计算成本高昂的散度项。我们的代码已开源:https://github.com/countrsignal/sita.git
学习无限维函数空间之间的映射,即算子学习,对许多机器学习应用至关重要。尽管基于Transformer的算子方法很流行,但它们通常依赖于逐token注意力机制。这些方法将连续场视为离散token,并往往忽略全局函数结构。我们提出函数注意力(Functional Attention),将注意力重新解释为自适应基之间的函数对应。受几何函数映射启发,我们的方法用结构化线性算子替代softmax亲和度,从而获得一种紧凑、可泛化、分辨率无关的表示,能够显式捕捉全局依赖关系。实验表明,函数注意力在许多算子学习任务中(包括求解偏微分方程、3D分割和回归)能达到与最先进方法相当的性能,同时保持对不同离散化的鲁棒性。项目页面详见 https://github.com/xjffff/FUNCATTN。
低秩适应(LoRA)通过将预训练扩散模型适配到特定视觉概念和风格,成功实现了文本到图像生成中的个性化定制。然而,将此类模型扩展到多概念定制仍然具有挑战性。简单组合多个LoRA权重或它们的输出通常会导致概念间的干扰,从而降低视觉质量并削弱对单个概念参考图像的保真度。本文提出一种简单而有效的多概念定制方法,通过最优组合多个LoRA模块的输出实现。我们利用生成过程中从相应提示词标记推断出的每个概念的相对重要性,并引入两种方法——W-Switch和W-Composite,采用提示词感知的重要性加权策略,其中每个LoRA根据其触发词在目标提示中的语义影响程度进行加权。此外,我们扩展了现有的定量评估指标,提出一种新的基于图像的相似性评估框架,通过比较真实世界参考图像与生成图像中自动分割的概念区域,来评估图像保真度和身份保持能力。我们在ComposLoRA测试平台上评估了所提方法,并展示了在视觉质量、身份保持和组合性方面相较于现有最先进方法的持续改进。定性评估(包括基于大语言模型的评估和用户研究)进一步验证了所提方法的有效性,并与新引入的基于图像的定量指标保持一致。我们的代码见https://github.com/GeorgeTsoumplekas/Prompt-Aware-Multi-LoRA-Composition。
统一多模态模型(UMMs)已成为实现通用多模态智能的有前景范式。随着这些模型在现实应用中部署,如何有效更新内部知识变得至关重要。虽然知识编辑在纯文本模型中已趋于成熟,但尚未明确:成功修改文本输出的编辑操作,是否也能迁移至UMMs中的图像生成任务。为研究该问题,我们提出UniKE——首个面向UMMs的跨模态知识编辑基准,包含属性编辑与关系编辑共2,971个编辑主题。基于VQA的视觉验证结果表明,存在显著的模态差距:文本侧有效性可达约92%,而直接图像生成下的最优整体VQA准确率仅为18.5%。我们进一步提出推理增强参数编辑(Reasoning-augmented Parameter Editing),在生成前显式激活已编辑知识,使所有模型-编辑器组合的整体VQA准确率均获提升,最高增益达18.6个百分点。机理分析表明,这一差距源于编辑后的文本表征与视觉生成的条件路径之间存在部分对齐——足以影响文本输出的编辑操作,可能因强度不足或方向偏差而无法有效引导图像合成。这些发现表明,文本知识编辑无法保证可靠的跨模态迁移,亟需开发模态感知的编辑方法。我们的代码与数据已开源:https://github.com/gxx27/UniKE。
LLM-agent 预算超支是一种有文献记录的生产故障类别:单个重试循环可能在操作员察觉前耗费数千美元,而能够防止此类问题的进程内完整性属性(无别名、无双花、无委托后使用成本承担值)即便得到强制执行,也往往通过临时包装器而非类型系统来实现。我们的核心贡献是实证性成果:一份包含来自21个编排框架(2023-2026年)的63起已确认生产事故的目录,每起事故均有引用的GitHub issue作为支撑,并在已知情况下附有美元损失金额,归类为八簇故障分类体系(评分者间Cohen's kappa = 0.837,N = 113),外加47条补充性结构条目。作为针对该分类体系评估的一种缓解措施,我们构建了token-budgets——一个1180行的Rust crate(无unsafe代码),它将仿射所有权操作化,使得克隆、双花或在委托预算后使用该预算成为编译错误,而非操作员必须记住避免的运行时风险。美元上限是估计器假设下的运行时算术;仿射层使得该算术不可绕过。在单代理工作负载上,一个4行的Python计数器与crate的效果相当,超支率为0/30,因此其区分价值在于多代理委托中操作员错误下的不可绕过性:在11起事故中有文档记录的委托扇出竞争在编译时被借用检查器拒绝,而相同模式在asyncio下超支率为30/30,三种严谨替代方案超支率为0/30。跨五个运行时、三个提供商以及温度分层的实时API测试(N = 160),该方案报告零上限违规和零误拒绝,运行效率与同期工作相当。静态过度预留为4-6倍(自适应时为2.11倍)。运行中二进制文件层面的二进制级上限可靠性仍待解决。