每日精选AI研究论文及翻译
随着人工智能系统从生成文本转向通过持续交互实现目标,对环境动态的建模能力成为核心瓶颈。无论是操控物体、导航软件、协同协作还是设计实验的智能体,都需要具备预测性环境模型,然而"世界模型"这一术语在不同研究社群中含义各异。我们提出基于"能力层级×规律体系"的双轴分类法:第一轴定义三个能力层级——L1预测器(学习单步局部转移算子)、L2模拟器(组合成符合领域规律的多步行动条件推演)、L3进化器(当预测与新证据不符时自主修正模型);第二轴界定四种规律体系:物理、数字、社会与科学规律,这些体系决定了世界模型需满足的约束条件及易失效场景。基于该框架,我们系统梳理了400余项研究,总结了涵盖基于模型的强化学习、视频生成、网页/GUI智能体、多智能体社会模拟及AI驱动科学发现等领域的100多个代表性系统。通过分析不同层级-体系配对下的方法特性、失效模式与评估实践,我们提出以决策为核心的评估原则与最小可复现评估套件,并给出架构设计指南、开放性问题及治理挑战。该路线图将此前孤立的研究社群有机连接,规划出从被动单步预测迈向能模拟——最终重塑智能体操作环境——的世界模型发展路径。
图像与视频生成模型所产生的变换常以高度非线性方式演进:内容几乎无变化的长段平稳期后,常伴随着突然的语义跃迁。为分析并修正这一现象,我们引入语义进度函数——一种能捕捉给定序列中语义随时间演变的一维表征。针对每一帧,我们计算语义嵌入间的距离,并拟合出反映序列累积语义变化的平滑曲线。该曲线与直线间的偏离揭示了语义节奏的不均匀性。基于此发现,我们提出语义线性化方法,通过对序列进行重参数化(或重定时),使语义变化以恒定速率展开,从而产生更平滑连贯的过渡效果。除线性化外,本框架还提供了模型无关的基础能力,可用于识别时序异常、比较不同生成器的语义节奏,并将生成视频及真实视频序列引导至任意目标节奏。
神经表示(NRs),如神经场和3D高斯函数,能有效建模计算机断层扫描(CT)中的体数据,但在稀疏视角条件下会出现严重伪影。为此,我们提出DiffNR这一新颖框架,通过扩散先验增强神经表示的优化能力。其核心是SliceFixer——一个专用于修复退化切片中伪影的单步扩散模型。我们在网络中集成专用条件层,并开发定制化数据管理策略以支持模型微调。在重建过程中,SliceFixer定期生成伪参考体数据,通过辅助的3D感知监督来修正欠约束区域。相较于先前将CT求解器嵌入耗时迭代去噪过程的方法,我们提出的"修复-增强"策略避免了频繁查询扩散模型,从而获得更优的运行时效。大量实验表明,DiffNR平均将PSNR提升3.99 dB,具有良好的跨领域泛化能力,并能保持高效的优化过程。
防护模型被广泛应用于检测用户提示和大型语言模型(LLM)响应中的有害内容。然而,现有最先进的防护模型仅依赖终端层表征,忽视了分布于内部各层的丰富安全相关特征。我们提出SIREN——一种利用这些内部特征的轻量级防护模型。通过线性探测识别安全神经元,并采用自适应层加权策略进行特征融合,SIREN无需修改底层模型即可基于LLM内部状态构建有害性检测器。综合评估表明,SIREN在多项基准测试中显著优于当前最先进的开源防护模型,同时可训练参数量减少250倍。此外,SIREN对未见过的基准测试展现出卓越的泛化能力,天然支持实时流式检测,与生成式防护模型相比显著提升推理效率。总体而言,我们的研究结果凸显了LLM内部状态作为实用高效有害性检测基础的巨大潜力。
我们提出FlowAnchor,一种无需训练即可实现稳定高效的无反演流式视频编辑框架。近年来,无反演编辑方法通过直接利用编辑信号引导采样轨迹,在图像领域展现出卓越的效率和结构保持能力。然而将该范式扩展至视频领域仍面临挑战,在多物体场景或增加帧数时往往失效。我们发现根本原因在于高维视频潜空间中编辑信号的不稳定性,这种不稳定性源于空间定位不精确和长度引发的幅度衰减。为攻克此难题,FlowAnchor通过双重锚定机制明确规范编辑位置与编辑强度:引入空间感知注意力优化机制,强制文本引导与空间区域保持一致性对齐;采用自适应幅度调制技术,动态维持足够的编辑强度。这两种机制协同作用,可稳定编辑信号并引导流式演化朝向目标分布。大量实验表明,FlowAnchor在多物体快速运动等复杂场景下,能实现更逼真、时序连贯且计算高效的视频编辑。项目页面详见https://cuc-mipg.github.io/FlowAnchor.github.io/。
现实世界中的文档问答任务充满挑战。分析师需要综合多份文档及每份文档不同部分的证据信息。然而随着文档集合的增长,任何固定大小的LLM上下文窗口都可能被突破。常见的解决方案是将文档分解为片段,并通过片段级输出组装答案,但这会引入聚合瓶颈:随着片段数量增加,系统仍需对不断扩大的提取证据体进行整合推理。我们提出SLIDERS框架,通过结构化推理实现长文档集合的问答。该框架将关键信息提取至关系型数据库,使得能够通过SQL而非拼接文本来对持久化结构化状态进行可扩展推理。为确保局部提取的表征具有全局一致性,SLIDERS引入了数据协调阶段,利用数据溯源、提取依据和元数据来检测并修复重复、矛盾和不完整的记录。在三个现有长上下文基准测试中,SLIDERS均优于所有基线方法(尽管所有测试内容均未超出强基础LLM的上下文窗口),平均成绩较GPT-4.1高出6.6分。在两个分别包含390万和3600万token的新基准测试中,其性能较次优基线分别提升约19分和32分。
视频语言模型(VLMs)通过学习自然语言实现对动态视觉世界的推理。我们推出一套开源数据集、基准测试及可扩展的监督方案,旨在实现精准的视频描述。首先,我们基于与专业视频创作者(如电影制作人)共同制定的数百项精确定义的视觉基元,建立了描述主体、场景、运动、空间及摄像机动态的结构化规范。其次,为筛选高质量描述文本,我们提出CHAI(基于批判的人机协同监督框架),由训练有素的专家对模型生成的初版描述进行批判性修订,形成优化后的终版描述。这种分工模式将文本生成任务交由模型处理,使人类更专注于校验环节,从而提升标注精度与效率。此外,初版与终版描述间的批判意见与偏好选择,为通过SFT、DPO及推理时缩放等技术优化开源模型(如Qwen3-VL)的描述生成、奖励建模和批判生成能力提供了丰富监督信号。消融实验表明,监督框架所保障的批判质量(精确度、召回率与建设性)直接决定下游任务性能。在有限专家监督下,所得模型性能已超越Gemini-3.1-Pro等闭源模型。最后,我们将该方法应用于大规模专业视频(如电影、广告、游戏)的重新描述,并对Wan等视频生成模型进行微调,使其能更好遵循长达400词的详细提示,实现对摄影技法(包括摄像机运动、角度、镜头、焦点、视角与构图)的更精细控制。实验结果表明,精准的规范定义与人机协同监督是实现专业级视频理解与生成的关键。数据与代码详见项目页面:https://linzhiqiu.github.io/papers/chai/
人工智能代理生态系统的快速发展正在改变复杂任务的委托与执行方式,同时也带来了如何为特定任务匹配合适代理的新挑战。与传统工具不同,代理能力通常具有组合性和执行依赖性,仅通过文本描述难以准确评估。然而现有研究和基准测试通常假设功能明确、候选池受控或仅支持可执行任务查询,导致现实中的代理搜索场景研究不足。我们推出AgentSearchBench——一个面向真实场景的大规模代理搜索基准,基于来自多个平台的近10,000个真实世界代理构建。该基准将代理搜索形式化为可执行任务查询和高级任务描述下的检索与重排序问题,并通过执行驱动的性能信号评估相关性。实验表明语义相似度与实际代理性能之间存在持续差距,暴露出基于描述的检索与重排序方法的局限性。我们进一步证明,轻量级行为信号(包括执行感知探测)能显著提升排序质量,这凸显了将执行信号纳入代理发现机制的重要性。代码已开源:https://github.com/Bingo-W/AgentSearchBench。
从无状态语言模型推理向持久化、多会话自主智能体的转变过程中,内存已成为生产级智能体系统部署的主要架构瓶颈。现有方法主要依赖混合语义图架构,这种架构在信息录入和检索阶段都会产生巨大计算开销。这类系统通常需要大型语言模型介导的实体提取、显式图谱模式维护以及多查询检索流水线。本文提出Memanto——一种面向智能体人工智能的通用内存层,该设计对"必须通过复杂知识图谱才能实现高保真智能体记忆"的主流假设提出了挑战。Memanto集成了包含十三类预定义记忆单元的类型化语义记忆模式、自动化冲突解决机制及时间版本管理功能。这些组件通过Moorcheh信息论搜索引擎实现,该无索引语义数据库可在亚90毫秒延迟内实现确定性检索,同时消除数据录入延迟。基于LongMemEval和LoCoMo评估套件的系统性测试表明,Memanto分别实现了89.8%和87.1%的顶尖准确率,在仅需单次检索查询、零录入开销且保持显著更低运营复杂度的前提下,超越了所有已评估的混合图谱与向量系统。本文通过五阶段渐进式消融实验量化了各架构组件的贡献度,进而探讨了该设计对智能体记忆系统可扩展部署的启示。
现代序列建模主要由两大体系主导:一是Transformer模型,其自注意力机制能够访问可见序列中的任意元素;二是结构化状态空间模型,通过显式循环状态传递信息。这两种机制在长上下文处理中各存局限:当注意力分散时,单个标记的影响力会在有效支撑范围内被稀释;而循环状态传播除非主动保存信息,否则可能丧失长程敏感性。因此,两种机制在长上下文中都面临信息保持与选择性提取的挑战。我们提出Sessa解码器,将注意力置于循环反馈路径中。该设计构建了多条基于注意力的路径,使历史标记能通过多种方式影响未来状态,而非依赖单一注意力读取或单一循环链。我们证明,在明确假设与匹配机制下,Sessa可实现幂律记忆尾迹O(ℓ^{-β})(0<β<1),其衰减速度慢于对应的Transformer和Mamba类基线模型。我们还给出了实现该幂律速率的显式构造。在相同假设下,Sessa是所考察模型中唯一能实现灵活选择性提取的类别,包括影响力不随距离衰减的分布模式。与这一理论优势一致,在匹配实验中,Sessa在长上下文基准测试中表现最优,同时在短上下文语言建模任务中保持与Transformer及Mamba类基线相当的竞争力。
大型语言模型(LLMs)虽具备较强的推理能力,但在处理长文本噪声语境时常常遗漏关键证据。我们提出HiLight——一种证据强调框架,该框架将证据选择与推理过程解耦,适用于无需微调的LLM求解器。HiLight通过训练轻量级强调执行器,在保持原始语境不变的前提下为关键信息段插入最小化的高亮标记,从而避免因压缩或重写输入导致的证据丢失或扭曲。随后,冻结的求解器可基于强调后的输入进行下游推理。我们将高亮标注构建为弱监督决策问题,仅利用求解器的任务奖励通过强化学习优化执行器,无需证据标签且不修改求解器内部参数。在序列推荐和长语境问答任务上的实验表明,HiLight持续优于基于提示的基线方法和自动化提示优化方案。习得的强调策略可零样本迁移至不同规模的新求解器家族(包括基于API的求解器),表明该执行器捕捉到了真实可复用的证据结构,而非对单一骨干网络的过拟合。
现有方法难以在数千种环境和任务中评估机器人策略,这催生了对可扩展评估方法的需求。本文提出dWorldEval——采用离散扩散世界模型作为机器人策略的可扩展评估代理。该框架将视觉、语言和机器人动作等所有模态映射到统一的标记空间,通过基于Transformer的单一去噪网络进行建模。基于此架构,我们采用稀疏关键帧记忆机制保持时空一致性,并引入指示任务完成度的进度标记。在推理时,模型联合预测未来观测值和进度标记,当进度值达到1时可自动判定任务成功。大量实验表明,dWorldEval在LIBERO、RoboTwin及多项真实机器人任务上显著优于WorldEval、Ctrl-World和WorldGym等现有方法,为构建大规模机器人评估的世界模拟器开辟了新范式。
视觉-语言-动作模型(VLAs)继承了视觉-语言模型(VLMs)的视觉与语言能力,但多数VLA由未经具身领域适配的现成VLM构建,这限制了其下游性能。本研究提出EmbodiedMidtrain方法以弥合VLM与VLA之间的鸿沟。我们首先量化了两者的数据分布差异,发现VLA数据占据着与广泛VLM分布高度分离的紧凑区域,且VLM数据源间及内部的对齐程度差异显著。随后,我们构建了中期训练数据引擎:通过轻量级可学习邻近度估计器从大规模VLM池中筛选最符合VLA对齐特性的候选数据,并在下游VLA微调前对该精选数据混合集进行VLM中期训练。在三个机器人操作基准测试中,中期训练持续提升了不同VLM骨干网络的性能,其效果可与专家级VLA及以更大模型规模与训练预算训练的现成VLM相媲美。进一步分析表明,中期训练为VLA微调提供了更强的初始化基础,收益从训练初始阶段便开始显现并随进程逐步扩大。此外,该数据引擎能同时捕捉数据集层级和样本层级的对齐信号,在保留VLM数据多样性的同时更偏向空间推理任务而非文本中心任务。我们将公开全部代码、数据与模型以供后续研究。
本文提出AgriIR——一种可配置的检索增强生成框架,旨在提供基于事实的领域特定答案,同时保持灵活性与低计算成本。与传统大型单体模型不同,AgriIR将信息获取流程分解为声明式模块化阶段:查询优化、子查询规划、检索、合成与评估。该设计使实践者无需修改架构即可将框架适配至新知识领域。我们的参考实现针对印度农业信息获取场景,集成10亿参数语言模型与自适应检索器及领域感知智能体目录。该系统强制实施确定性引用机制,集成可观测性技术保障透明度,并配备自动化部署资源以确保可审计、可复现的运行。通过强调架构设计与模块化控制,AgriIR证明精心设计的流水线能在受限资源下实现领域精准且可信的检索。我们认为,该方法通过提升检索增强生成系统的可及性、可持续性与可问责性,为"农业人工智能"提供了典范。
近期,自主"AI科学家"系统的进展已展现出自动撰写科学论文与可执行代码的能力。然而,生成达到发表水平的科学示意图(如导览图)仍是"端到端"论文生成过程中的主要瓶颈。导览图作为战略性视觉界面,其功能不同于衍生的数据图表,它要求通过概念整合与规划,将复杂逻辑工作流转化为能够引导直觉、激发好奇力的图示。现有AI科学家系统通常忽略该环节,或采用次优替代方案。为弥补这一空白,我们推出DiagramBank——一个从顶级科学出版物中精选88,422幅示意图构建的大规模数据集,专为多模态检索与范例驱动的科学图表生成而设计。该数据集通过自动化处理流程开发,可提取图表及对应文中引用,并采用基于CLIP的过滤器区分示意图与标准图表或自然图像。每个实例均配有从摘要、图注到图文引用对的丰富上下文,支持不同粒度查询下的信息检索。我们以即用型索引格式发布DiagramBank,并提供检索增强生成代码库,展示基于范例条件的导览图合成。DiagramBank数据集公开于https://huggingface.co/datasets/zhangt20/DiagramBank,代码库位于https://github.com/csml-rpi/DiagramBank。
随着推理能力与部署范围的同步增长,大语言模型(LLMs)逐渐具备服务于自身目标的行为能力,此类风险我们称之为"涌现性战略推理风险"(ESRRs)。其具体表现包括但不限于:欺骗行为(故意误导用户或评估者)、评估博弈(在安全测试中策略性操纵表现)以及奖励破解(利用目标设定缺陷)。系统化理解并量化评估这类风险仍是当前面临的挑战。为填补这一空白,我们提出ESRRSim——一个基于分类学的自动化行为风险评估代理框架。我们构建了包含7大类、20个子类的可扩展风险分类体系。ESRRSim采用与评估者无关的可扩展架构,生成旨在激发真实推理的评估场景,并配备双重评估标准,同时评估模型响应与推理轨迹。对11款推理型大语言模型的评估显示,其风险特征存在显著差异(风险检测率介于14.45%-72.72%),而代际改进幅度表明模型可能正日益具备识别并适应评估情境的能力。