每日精选AI研究论文及翻译
光学字符识别(OCR)已从行级转录演进至结构化文档解析,要求模型能够还原包含版式、表格和公式的长序列内容。尽管视觉语言模型近期取得进展,现有系统大多仍依赖自回归解码,这种机制会引入序列延迟并在长文档中放大错误传播。本文从逆向渲染的角度重新审视文档OCR任务,指出从左到右的因果生成本质上是序列化的副产品而非任务的内在属性。基于这一洞见,我们提出MinerU-Diffusion——一个基于扩散模型的统一框架,通过视觉条件化下的并行扩散去噪替代自回归序列解码。该框架采用分块扩散解码器和不确定性驱动的课程学习策略,实现稳定训练与高效长序列推理。大量实验表明,MinerU-Diffusion在实现比自回归基线快3.2倍解码速度的同时,持续提升鲁棒性。在提出的语义重排基准测试上的评估进一步证实,该方法降低了对语言先验的依赖,展现出更强的视觉OCR能力。
动力学系统理论与强化学习将世界演化视为由动作驱动的潜在状态动态过程,视觉观测则提供关于状态的部分信息。近期视频世界模型尝试从数据中学习这种动作条件化的动态规律。然而现有数据集难以满足要求:通常缺乏多样化且具语义意义的动作空间,且动作直接与视觉观测绑定而非通过底层状态中介。这导致动作常与像素级变化纠缠,使模型难以学习结构化世界动态并保持长时域演化的一致性。本文提出WildWorld——一个具有显式状态标注的大规模动作条件化世界建模数据集,通过从照片级真实AAA动作角色扮演游戏(《怪物猎人:荒野》)自动采集而成。该数据集包含超1.08亿帧画面,涵盖移动、攻击、技能施放等450余种动作,并同步提供逐帧角色骨骼、世界状态、相机位姿与深度图标注。我们进一步构建WildBench评估框架,通过动作跟随与状态对齐两项任务评估模型性能。大量实验表明,在建模语义丰富的动作与保持长时域状态一致性方面仍存在持续挑战,凸显了状态感知视频生成的必要性。项目页面详见https://shandaai.github.io/wildworld-project/。
智能体式多模态大语言模型(如OpenAI o3与Gemini Agentic Vision)通过迭代式视觉工具调用实现了卓越的推理能力。然而级联式的感知、推理与工具调用循环会带来显著的串行开销。这种被称为"智能体深度"的开销会产生过高延迟,严重限制系统级并发性能。为此,我们提出SpecEyes——一种智能体级推测加速框架,旨在突破这一串行瓶颈。我们的核心思路是:利用轻量级无工具MLLM作为推测规划器,通过预测执行轨迹实现昂贵工具链的提前终止,且不损失准确性。为规范这种推测规划,我们引入了基于答案可分离性的认知门控机制,该机制可在无需标注数据的情况下量化模型的自验证置信度。此外,我们设计了异构并行漏斗架构,利用小模型的无状态并发特性来掩盖大模型的有状态串行执行,从而最大化系统吞吐量。在V* Bench、HR-Bench和POPE上的大量实验表明,SpecEyes在保持甚至提升准确率(最高+6.7%)的同时,相较智能体基线实现了1.1-3.35倍加速,显著提升了并发工作负载下的服务吞吐量。
基于大型语言模型(LLM)的系统正日益流行,它们通过构建可执行的工作流来解决任务,这些工作流交织了LLM调用、信息检索、工具使用、代码执行、内存更新与验证。本文综述了近年来设计与优化此类工作流(我们称之为智能体计算图/ACGs)的方法。我们根据工作流结构确定的时间节点对文献进行梳理,其中“结构”指代组件或智能体的构成、相互依赖关系及信息流动方式。这一视角区分了静态方法(在部署前固定可复用工作流框架)与动态方法(在执行前或执行中为特定运行选择、生成或修订工作流)。我们进一步沿三个维度组织现有研究:结构确定的时间节点、工作流中被优化的部分、以及指导优化的评估信号(如任务指标、验证器信号、偏好或轨迹反馈)。同时,我们区分了可复用工作流模板、运行专用实现图与执行轨迹,将可复用的设计选择与具体运行中实际部署的结构及运行时行为相分离。最后,我们提出一种结构感知的评估视角,在下游任务指标基础上补充图级属性、执行成本、鲁棒性及跨输入的结构差异性。本文旨在为LLM智能体工作流优化研究提供清晰的术语体系、统一的方法定位框架、更具可比性的文献视图以及更可复现的评估标准。
在高质量数据上训练的光流模型,面对真实世界中的模糊、噪声和压缩伪影等退化现象时,性能往往会严重下降。为突破这一局限,我们提出了退化感知光流这一新任务,旨在从真实世界退化视频中实现精准的密集对应关系估计。我们的核心发现是:图像复原扩散模型的中间表征本身具有退化感知能力,但缺乏时序感知能力。为此,我们通过全时空注意力机制将模型扩展至跨帧感知,并实证验证所得特征具备零样本对应关系识别能力。基于这一发现,我们提出DA-Flow混合架构,在迭代优化框架中将扩散特征与卷积特征相融合。在多个基准测试中,DA-Flow在严重退化条件下的表现显著优于现有光流方法。
人类对新概念的认知本质上是一个流式过程:我们会持续识别新物体或身份,并随时间推移更新记忆。然而当前的多模态个性化方法大多局限于静态图像或离线视频,这使得连续视觉输入与即时现实反馈相脱节,限制了其提供未来AI助手所需的实时交互式个性化响应能力。为弥合这一差距,我们首次提出并正式定义了"个性化流式视频理解"(PSVU)这一新任务。为推进该方向研究,我们构建了PEARL-Bench——首个专门针对此挑战性场景设计的综合基准。该基准通过两种模式评估模型在精确时间戳响应个性化概念的能力:(1)帧级模式,关注离散帧中的特定人物或物体;(2)创新的视频级模式,关注连续帧中展开的个性化动作。PEARL-Bench包含132个独特视频和2,173个带精确时间戳的细粒度标注,通过自动化生成与人工验证相结合的流程严格确保概念多样性和标注质量。 针对这一挑战性新场景,我们进一步提出PEARL——一种即插即用、无需训练的强基线策略。对8个离线与在线模型的广泛评估表明,PEARL实现了最先进的性能。值得注意的是,该策略在应用于3种不同架构时均能带来一致的PSVU性能提升,证明了其高效性与鲁棒性。我们期待这项工作能推动视觉语言模型(VLM)的个性化研究,并启发更多关于流式个性化AI助手的探索。代码已开源:https://github.com/Yuanhong-Zheng/PEARL。
高质量可动三维资产对于具身AI与物理仿真至关重要,然而当前三维生成技术仍聚焦于静态网格,导致"仿真就绪"的交互式对象存在空白。现有的大多数可动物体创建方法依赖多阶段流水线,各解耦模块间的误差会不断累积。相比之下,统一的多模态大语言模型提供了单阶段实现路径,能同时完成静态资产理解与仿真就绪资产生成。但基于稠密体素的三维标记化方法会产生冗长的三维标记序列和高内存开销,限制了处理复杂可动物体的扩展性。为此,我们提出SIMART——一个统一的多模态大语言模型框架,可同步实现部件级分解与运动学预测。通过引入稀疏三维向量量化变分自编码器,SIMART较稠密体素标记将标记数量减少70%,从而支持高保真多部件装配。该框架在PartNet-Mobility数据集及野外AIGC数据集上达到最先进性能,并成功支撑了基于物理的机器人仿真应用。
能够实现交错生成的一体化模型已成为一种前景广阔的范式,学界正逐渐趋同于采用自回归建模处理文本生成,而采用流匹配处理图像生成。为推进这一方向,我们提出了专为交错生成设计的统一强化学习框架。我们通过其基础单元验证方法:单轮推理驱动的图像生成,即模型先通过推理扩展用户提示词,再进行图像合成。通过将这一多模态生成过程建模为具有稀疏终端奖励的马尔可夫决策过程,我们提出UniGRPO框架,利用GRPO联合优化文本与图像生成策略。采用极简主义方法论避免过度设计,我们无缝整合标准GRPO(用于推理)与FlowGRPO(用于视觉合成),充分发挥两种模态的成熟训练方案。为确保可扩展至多轮交错生成,我们对原始FlowGRPO进行两项关键改进:(1)消除无分类器引导以维持线性无分支的决策轨迹,这对扩展至涉及多轮交互和多条件生成(如编辑)的复杂场景至关重要;(2)将标准潜在KL惩罚替换为速度场上的直接MSE惩罚,通过更鲁棒的直接正则化信号有效抑制奖励破解。实验表明,该统一训练方案通过推理显著提升图像生成质量,为未来全交错模型的训练后优化提供了鲁棒且可扩展的基线。
当前顶尖的视频生成模型虽能实现惊人的照片级真实感,但在精确控制生成内容与特定场景需求对齐方面仍存在不足。此外,由于缺乏底层显式几何结构,这些模型无法保证三维一致性。相反,三维引擎能对每个场景元素进行细粒度控制,并通过设计原生保障三维一致性,但其输出效果往往陷入"恐怖谷效应"。要弥合这种仿真与真实之间的鸿沟,既需要结构精度(输出必须精确保留输入的几何结构与动态特性),又需要全局语义转换(材质、光照与纹理需整体转换以实现照片真实感)。我们提出RealMaster方法,利用视频扩散模型将渲染视频提升至照片级真实感,同时完全保持与三维引擎输出的对齐。为训练该模型,我们通过基于锚点的传播策略生成配对数据集:首尾帧经真实感增强后,利用几何条件线索在中间帧间传播。随后在这些配对视频上训练IC-LoRA,将流程的高质量输出蒸馏至模型中,使其突破流程限制实现泛化,能处理序列中途出现的物体与角色,且无需锚帧即可完成推理。在复杂GTA-V序列上的评估表明,RealMaster显著优于现有视频编辑基线,在提升真实感的同时完整保留了原始三维控制指定的几何结构、动态特性与身份特征。
多模态思维链推理要求大型视觉语言模型构建感知锚定与多步推理交织的推理轨迹。然而,现有基于可验证奖励的强化学习方法通常在粗粒度上优化推理,将思维链统一处理而未区分其视觉锚定程度的差异。本文通过多模态推理轨迹的令牌级分析发现,成功推理的典型特征在于能同时反映感知锚定与探索性推理的结构化令牌动态。基于此分析,我们提出感知-探索策略优化框架:通过隐状态相似度推导感知先验,并采用平滑门控机制将其与令牌熵融合以生成令牌级优势值。该框架可无缝集成GRPO、DAPO等现有强化学习框架,无需额外监督或辅助分支。在涵盖几何推理、视觉定位、视觉谜题求解和少样本分类的多样化多模态基准测试中,本方法相较于强强化学习基线均展现出持续稳健的性能提升,同时保持稳定的训练动态。代码地址:https://github.com/xzxxntxdy/PEPO
无姿态前馈三维高斯溅射(3DGS)技术为快速三维建模开辟了新领域,使得无需标定的多视角图像仅通过单次前向传播即可生成高质量的高斯表征。该领域的主流方法采用统一单体架构——通常基于以几何为核心的三维基础模型——在单一网络内联合估计相机姿态并合成3DGS表征。尽管这种"一体化"设计在架构上较为简洁,但由于其将几何推理与外观建模纠缠于共享表征中,可能难以实现高保真度的3DGS生成。本文提出2Xplat框架,这是一种基于双专家设计的无姿态前馈3DGS系统,其核心创新在于将几何估计与高斯生成显式分离:专用几何专家首先预测相机姿态,随后将这些姿态明确传递给负责合成三维高斯的外观专家。尽管该方案概念简洁且在先前研究中未被充分探索,但实践证明其极具效力。在不足5000次训练迭代的情况下,这一双专家流程显著超越了既往的无姿态前馈3DGS方法,其性能甚至可与需要预设姿态的先进方法相媲美。这些成果对当前主流的一体化范式提出了挑战,揭示了模块化设计原则在复杂三维几何估计与外观合成任务中的潜在优势。
多模态大语言模型(MLLMs)虽已推动通用视频理解技术发展,但在处理长时高分辨率视频时仍面临挑战——其视觉变换器(ViTs)或大语言模型会对所有像素进行无差别处理,忽略了显著的时空冗余。我们提出AutoGaze轻量化模块,通过在ViT或MLLM处理前自动去除冗余图像块。该模块通过下一标记预测和强化学习联合训练,能够自回归地选择一组最精简的多尺度图像块,在用户设定的误差阈值内实现视频重构,在保留信息的同时消除冗余。实验表明,AutoGaze可将视觉标记数量减少4-100倍,并将ViT和MLLM处理速度提升最高19倍,使MLLM能够处理长达1000帧的4K分辨率视频,并在视频基准测试中取得领先成果(如VideoMME达到67.0%)。此外,我们推出HLVid基准:首个包含5分钟4K分辨率视频的长时高分辨率视频问答数据集,搭载AutoGaze的MLLM较基线提升10.1%,较先前最优MLLM提升4.5%。项目页面:https://autogaze.github.io/。
潜在世界模型(如V-JEPA2)的最新进展已展现出从视频观测中预测未来世界状态的潜力。然而,基于短时观测窗口的密集预测会限制时序上下文,使预测器偏向局部低层次外推,难以捕捉长时程语义并降低下游任务效用。相比之下,视觉语言模型(VLMs)通过对均匀采样帧进行推理,能提供强语义基础和通用知识,但由于计算驱动的稀疏采样、将细粒度交互状态压缩为文本导向表征的语言输出瓶颈,以及适配小规模动作条件数据集时的数据机制失配,它们并不适合作为独立的密集预测器。我们提出一种VLM引导的JEMA式潜在世界建模框架,通过双时序路径结合密集帧动态建模与长时程语义引导:密集JEMA分支负责细粒度运动和交互线索,而采用较大时序步长的均匀采样VLM思考分支则提供知识丰富的引导。为有效传递VLM的渐进推理信号,我们引入分层金字塔表征提取模块,将VLM的多层表征聚合为与潜在预测兼容的引导特征。手部操作轨迹预测实验表明,本方法在强VLM基线与JEMA预测器基线上均取得更优性能,并产生更稳健的长时程推演行为。
主动计算机视觉通过序列化、局部化的视觉瞥视实现高效且生物合理的感知,但缺乏可扩展的通用架构与预训练流程,致使主动视觉基础模型(AVFM)长期处于探索空白。我们提出首个任务与策略无关的AVFM——CanViT。该模型采用场景相对旋转位置编码,将视网膜拓扑的视觉Transformer主干与空间拓扑的场景级潜在工作区(画布)相绑定。新型非对称交叉注意力机制“画布注意力”支持与高容量工作记忆的高效交互。我们通过分离思维(主干层)与记忆(画布层),消除画布侧自注意力与全连接层,实现低延迟序列推理及大场景可扩展性。我们提出无标签主动视觉预训练方案:策略无关的被动到主动稠密潜在蒸馏——通过随机位置、缩放级别和长度的低分辨率瞥视序列,重构场景级DINOv3嵌入。在单张H100显卡上,我们从随机初始化开始对CanViT-B进行预训练:使用1320万ImageNet-21k场景(规模超先前主动模型一个数量级)和10亿随机瞥视,耗时166小时。在ADE20K分割任务中,冻结的CanViT-B仅需单次低分辨率瞥视即达38.5% mIoU,以19.5倍更低推理FLOPs、无需微调的表现超越最佳主动模型的27.6%,并优于FLOP或输入匹配的DINOv3教师模型。增加瞥视次数后,CanViT-B在ADE20K上的mIoU进一步提升至45.9%。在ImageNet-1k分类任务中,配合冻结教师探针,CanViT-B达到81.2% top-1准确率。该模型可泛化至更长序列、更大场景及新策略。我们的工作显著缩小了被动与主动视觉在语义分割领域的性能差距,证明了AVFM作为新研究方向的潜力。
视觉-语言-动作(VLA)模型通常直接将视觉观察与语言指令映射为机器人控制信号。这种"黑箱"式映射要求单次前向传播同时处理指令解析、空间定位和底层控制,往往导致空间精度不足且在分布外场景中鲁棒性有限。为突破这些局限,我们提出VP-VLA——一种通过结构化视觉提示接口解耦高层推理与底层执行的双系统框架。具体而言,"系统2规划器"将复杂指令分解为子任务并识别相关目标物体及目标位置,这些空间锚点随后以十字准星、边界框等形式作为结构化视觉提示直接叠加在视觉观察上。在训练过程中,通过新型辅助视觉定位目标函数的增强,"系统1控制器"能依托这些视觉提示可靠地生成精确的底层执行动作。在Robocasa-GR1-Tabletop基准测试与SimplerEnv仿真环境中的实验表明,VP-VLA将任务成功率分别提升5%和8.3%,超越了包括QwenOFT与GR00T-N1.6在内的竞争基线模型。
系统综述对于整合科学证据至关重要,但存在成本高昂、难以规模化且耗时较长的问题,这为循证决策形成了瓶颈。本研究探讨大型语言模型能否实现从文献检索、文章筛选、数据提取到报告合成的全流程自动化。针对世卫组织指定的九种优先病原体流行病学综述,我们开发的开源智能体流程(AgentSLR)在专家标注的真实数据集上实现与人类研究者相当的效能,同时将综述时长从约7周缩短至20小时(效率提升58倍)。通过对五种前沿模型的比较发现,系统综述任务的性能差异主要取决于各模型的独特能力,而非模型规模或推理成本。借助人机协同验证,我们识别出关键失效模式。研究结果表明,智能体人工智能能显著加速专业领域的科学证据合成进程。
具有可验证奖励的强化学习(RLVR)显著提升了大语言模型(LLM)的推理能力,但其在词元层面的作用机制尚不明确。本文通过三项核心分析展开系统性实证研究:1)基础模型与RL模型间分布偏移的词元级表征;2)通过交叉抽样干预探究词元级分布偏移对序列级推理性能的影响;3)这些偏移在词元层面的细粒度机制。研究发现RL微调会引发高度稀疏的定向变化,仅少数词元分布在基础策略与RL策略间出现显著差异。我们进一步通过词元熵值、位置集中度及概率质量重分配等分析,揭示了这些分布偏移的结构特征与演化规律。为评估这些稀疏变化的功能重要性,我们实施交叉抽样实验:在设定干预预算下,选择性替换基础模型与RL模型间的词元选择。实验表明,仅需在基础模型生成结果中插入少量RL抽样词元,即可逐步恢复RL的性能增益;反之,若在RL生成的序列中注入少量基础模型词元选择,性能会迅速衰退至基础水平,由此锁定直接决定RLVR性能增益的关键词元决策集。最后,我们探索优势信号的差异加权变体作为诊断干预手段,发现其能产生超越基线模型的改进效果。本研究共同揭示了RLVR引发的分布变化规律,为理解RLVR微调作为定向优化过程提供了细粒度的词元级视角。
现实世界具有非平稳性和无限复杂性,这要求智能体能够在不承担从头训练的高昂代价下持续学习。尽管在线持续学习为此提供了框架,但新知识的学习往往会干扰已掌握知识,导致遗忘和泛化能力下降。为解决这一问题,我们提出抽象增强训练(AAT),通过损失函数层面的改进促使模型捕捉样本间潜在的关联结构。该方法通过对具体实例及其抽象表征进行联合优化,引入一种内存高效的归纳偏置,从而在严格在线数据流中实现稳定学习,无需依赖经验回放缓冲区。为捕捉抽象的多维特性,我们在两个基准测试中引入并评估AAT:一是通过实体掩码实现抽象的可控关系数据集,二是通过共享谚语表达抽象的叙事数据集。实验结果表明,尽管AAT无需额外内存且仅对训练目标进行最小改动,其性能已达到或超越强经验回放(ER)基线。这项工作揭示了结构抽象可作为ER的一种强大且无需内存的替代方案。
主题驱动的图像生成技术正日益被期望能够实现对单张图像中多个实体的细粒度控制。在多参考工作流中,用户可提供多张主体图像、背景参考以及带有实体索引的长文本提示,以控制同一场景中的多个人物。在此设定下,关键失效模式是跨主体属性错位——属性被保留、编辑或错误转移到其他主体。现有基准与指标大多强调整体保真度或单主体自相似性,导致此类故障难以诊断。我们推出MultiBind基准,该基准基于真实多人照片构建。每个实例提供带掩码与边界框的槽位有序主体裁剪图、规范化主体参考、修复后的背景参考,以及源自结构化标注的密集实体索引提示。我们还提出维度混淆评估方案:通过将生成主体与真实槽位匹配,并利用人脸身份、外观、姿态和表情的专用评估器测量槽位间相似度。通过减去对应的真实相似度矩阵,我们的方法能将自身性能衰减与真实跨主体干扰分离,并揭示可解释的失效模式(如漂移、置换、主导和融合)。在现代多参考生成器上的实验表明,MultiBind能揭示传统重建指标无法检测的绑定故障。
视频行为模型(VAM)已成为具身智能领域的重要框架,其通过从原始视频流中学习隐式世界动态,生成时序一致的行为预测。尽管此类模型通过视觉推理在长周期任务中表现出色,但在仅凭视觉无法完整观测关键交互状态的密集接触场景中仍存在局限。特别是视觉标记无法可靠编码细粒度力调节与接触状态转换,导致行为不稳定或不精确。为弥补这一差距,我们提出视频-触觉行为模型(VTAM),这是一种融合触觉感知作为互补 grounding 信号的多模态世界建模框架。VTAM通过轻量级模态迁移微调将触觉流集成至预训练视频变换器,无需触觉-语言配对数据或独立触觉预训练即可实现高效跨模态表征学习。为稳定多模态融合,我们引入触觉正则化损失以强化跨模态注意力平衡,防止行为模型中视觉潜变量的主导地位。VTAM在密集接触操作中展现出卓越性能,平均保持90%的稳健成功率。在需要高保真力感知的薯片抓取等挑战性场景中,VTAM较π0.5基线性能提升80%。我们的研究证明,整合触觉反馈对于修正世界行为模型中的视觉估计误差至关重要,为物理 grounded 的具身基础模型提供了可扩展路径。
RNA二级结构的精确预测是转录组注释、非编码RNA机制分析和RNA治疗设计的基石。基于深度学习与RNA基础模型的最新成果难以阐释,因为现有基准测试可能高估了跨RNA家族的泛化能力。我们推出全面层级化非编码RNA群组注释库(CHANRG),该基准集通过结构感知去重、基因组感知分割设计和多尺度结构评估,从Rfam 15.0数据库的1000多万条序列中筛选出170,083个结构非冗余RNA。在对29种预测工具的测试中,基础模型方法在保留集上达到最高精度,但在分布外数据中丧失大部分优势;而结构化解码器和直接神经预测器则保持显著更强的鲁棒性。这种差距在控制序列长度后依然存在,既反映了结构覆盖度的损失,也体现了高阶结构连接的错误识别。CHANRG基准集与免填充、对称感知的评估框架共同为开发具有可验证分布外鲁棒性的RNA结构预测工具提供了更严格且批次无关的评估体系。
多模态AI代理正日益自动化涉及在线网络执行的复杂现实工作流程。然而,当前网络代理基准测试存在一个关键局限:完全聚焦于基于网络的交互与感知,缺乏对用户现实物理环境的关联。这一局限导致无法评估关键场景,例如当代理需通过第一视角视觉感知(如通过AR眼镜)识别用户周边物体并完成相关在线任务时。为弥补这一空白,我们推出Ego2Web——首个连接第一视角视频感知与网络代理执行的基准测试。Ego2Web将现实世界第一人称视频记录与需要视觉理解、网络任务规划及在线环境交互的网络任务配对,确保任务成功完成。我们采用自动化数据生成流程结合人工验证优化,构建了涵盖电子商务、媒体检索、知识查询等多元网络任务类型的高质量视频-任务对。为实现精准可扩展的评估,我们还开发了新型LLM-as-a-Judge自动评估方法Ego2WebJudge,其与人类判断的一致性达84%,显著优于现有评估方法。在Ego2Web上对多种先进代理的测试表明,其性能表现较弱,所有任务类别均有大幅提升空间。我们还对任务设计进行了全面消融研究,揭示了精准视频理解在任务中的必要性以及当前代理的局限性。我们期待Ego2Web能成为开发真正智能AI助手的关键资源,助力实现物理与数字世界无缝衔接的感知、理解与行动。
单目新视角合成长期依赖多视角图像对进行监督,这限制了训练数据的规模与多样性。我们认为这种约束并非必要:单视角足矣。本文提出OVIE方法,完全基于非配对的互联网图像进行训练。我们利用单目深度估计器作为训练时的几何支架:将源图像提升至三维空间,施加采样的相机变换后投影生成伪目标视角。为解决遮挡区域显露问题,我们引入掩码训练机制,将几何、感知及纹理损失约束于有效区域,从而实现对3000万张未筛选图像的训练。在推理阶段,OVIE无需几何先验,既不依赖深度估计器也不使用三维表征。仅通过野外图像训练后,OVIE在零样本设定下超越现有方法,推理速度较次优基线提升600倍。代码与模型已开源:https://github.com/AdrienRR/ovie。
人工智能体——这种仅需有限人工监督即可自主采取行动以实现复杂目标的系统——已进入主流应用。这些系统正被广泛用于软件开发、商业活动执行及日常个人任务自动化。虽然人工智能体涉及代理法、合同法、侵权责任和劳动法等多个法律领域,但它们对当前全球影响力最大的AI监管法规《欧盟人工智能法案》提出了尤为紧迫的挑战。在AI体技术尚未成熟和普及前颁布的该法案,在应对这项变革性技术带来的治理挑战时面临重大障碍,包括自主任务执行中的性能故障、恶意行为者滥用AI体的风险,以及AI体所创造经济机遇的获取不平等问题。我们系统分析了欧盟AI法案对这些挑战的应对策略,既关注法规的实质性条款,更关键的是考察旨在支撑法规实施的制度框架。通过对法案中监测与执行职责分配、行业自律机制依赖度以及政府资源配置水平的剖析,我们发现这套为传统AI系统设计的监管框架难以适配AI体的特性。综合来看,我们的研究结果表明,欧盟及全球政策制定者若想有效规制下一代AI技术,就需要尽快调整现有监管路径。
未来运动预测在视频理解和可控视频生成中至关重要。密集点轨迹作为一种紧凑且富有表现力的运动表示方式,但根据观测视频建模其未来演化仍具挑战性。我们提出一个通过历史轨迹和视频上下文预测未来轨迹及可见度的框架。该方法包含三个核心组件:(1)网格锚点偏移编码,通过将每个点表示为相对于像素中心锚点的偏移量,降低位置依赖性偏差;(2)TrajLoom-VAE,通过掩码重建和时空一致性正则化器,学习密集轨迹的紧凑时空潜在空间;(3)TrajLoom-Flow,通过流匹配在潜在空间生成未来轨迹,结合边界提示和在线K步微调实现稳定采样。我们还推出了TrajLoomBench基准测试平台,该统一基准涵盖真实与合成视频,采用与视频生成基准对齐的标准化设置。相比现有最优方法,我们的方案将预测范围从24帧扩展至81帧,同时在多个数据集上提升运动真实性与稳定性。预测轨迹可直接支持下游视频生成与编辑任务。代码、模型检查点及数据集详见https://trajloom.github.io/。
当前AI智能体框架过早固化了单一交互协议、固定工具集成策略和静态用户模型,限制了其在多样化交互范式中的部署能力。为突破这些限制,我们提出STEM智能体(自适应、工具化、可扩展、多智能体),该模块化架构受生物多能性启发,通过未分化的智能体核心分化出专用协议处理器、工具绑定及记忆子系统,最终组合成完整运行的AI系统。该框架通过统一网关整合五种互操作协议(A2A、AG-UI、A2UI、UCP和AP2),引入持续学习二十余种行为维度用户偏好的调用者分析器,基于模型上下文协议(MCP)外部化所有领域能力,并采用仿生技能习得机制——通过类似细胞分化的成熟生命周期,将重复交互模式固化为可复用的智能体技能。记忆系统配备整合机制(包括情景剪枝、语义去重和模式提取),确保持续交互下实现亚线性增长。通过涵盖全部五个架构层的413项测试套件,可在三秒内完成协议处理器行为及组件集成验证。
大型语言模型是否具备道德推理能力,抑或仅是形似而已?我们通过科尔伯格道德发展阶段的框架,探究LLM对道德困境的回应究竟呈现真实的发展性递进,还是说对齐训练仅仅产出了表面类似成熟道德判断的推理式输出,却缺乏内在发展轨迹。采用经三种评判模型验证的LLM即评判者流水线,我们对涵盖不同架构、参数规模和训练方案的13个LLM生成的600余条回应进行分类,这些回应针对六类经典道德困境,并通过十项互补分析来解析所得模式的本质与内在一致性。研究结果揭示出惊人逆转:无论模型规模、架构或提示策略如何,回应均压倒性地对应后习俗推理阶段(第5-6阶段),这与人类以第4阶段为主导的发展常态形成倒置。更值得注意的是,部分模型表现出道德脱钩现象:即陈述的道德理由与行动选择之间存在系统性不一致。这种逻辑不自洽现象跨越模型规模和提示策略持续存在,是独立于修辞复杂度的直接推理一致性失败。模型规模虽具有统计显著性但实际影响微弱;训练类型无显著独立主效应;模型表现出近乎机械化的跨困境一致性,对语义迥异的道德问题生成逻辑无法区分的回应。我们推断这些模式为道德腹语现象提供了证据:通过对齐训练习得成熟道德推理的修辞惯例,却未形成这些惯例本应表征的底层发展轨迹。
视频物体中心学习旨在将原始视频分解为少量物体槽位,但现有槽注意力模型常存在严重过度碎片化问题。这是因为模型被隐式鼓励占用所有槽位以最小化重建目标,导致单个物体被多个冗余槽位表征。我们通过重建引导的槽位课程学习(SlotCurri)突破这一局限:训练初期仅使用少量粗粒度槽位,随后在重建误差较高处逐步分配新槽位,从而仅在需要时扩展表征能力,从源头防止碎片化。然而在槽位扩展过程中,唯有当粗粒度语义已充分分离时才有意义子部件才会显现;但受限于初始槽位预算和均方误差目标,语义边界往往模糊不清。为此,我们在均方误差基础上引入结构感知损失,通过保持局部对比度和边缘信息来强化各槽位的语义边界。最后,我们提出循环推理机制,使槽位在帧序列中先向前后向后滚动,即使在初始帧也能产生时序一致的物体表征。SlotCurri通过三重创新——在重建失败处分配表征能力、增强结构线索、引入循环推理——有效解决物体过度碎片化问题。在YouTube-VIS和MOVi-C数据集上分别实现+6.8和+8.3的显著FG-ARI提升,验证了该方法的有效性。代码已开源于github.com/wjun0830/SlotCurri。
基于视频的世界模型为具身模拟与规划提供了强大范式,但当前最先进的模型常因训练数据泛化及忽略物理规律的似然目标,产生物体穿透、反重力运动等违反物理定律的操控效果。我们提出ABot-PhysWorld——一个140亿参数的扩散Transformer模型,能生成视觉逼真、物理合理且动作可控的视频。该模型基于包含三百万段物理标注操控视频的精选数据集,采用新型基于DPO的解耦判别器后训练框架,在保持画质的同时抑制非物理行为。通过并行上下文模块实现跨具身控制的精准空间动作注入。为更好评估泛化能力,我们推出首个无需训练数据的具身零样本基准EZSbench,融合真实与合成的未知机器人-任务-场景组合,采用解耦评估协议分别检验物理真实性与动作对齐度。ABot-PhysWorld在PBench和EZSbench上均实现最先进性能,在物理合理性与轨迹一致性方面超越Veo 3.1和Sora v2 Pro。我们将公开EZSbench以推动具身视频生成的标准化评估。
尽管视觉语言模型(VLMs)已取得显著性能,但其欧几里得嵌入在捕捉层次关系(如部分-整体或父子结构)方面仍存在局限,且在多对象组合场景中常面临挑战。双曲视觉语言模型通过保留层次结构并利用蕴含关系建模部分-整体关系(即整体场景及其部分图像),有效缓解了这一问题。然而,现有方法未能建模每个部分对于整体具有不同层次的语义代表性。我们提出不确定性引导的组合双曲对齐(UNCHA)来增强双曲视觉语言模型。UNCHA通过双曲不确定性建模部分到整体的语义代表性,对整体场景中更具代表性的部分赋予较低不确定性,而对代表性较弱的部分赋予较高不确定性。这种代表性随后通过不确定性引导的权重融入对比学习目标。最后,通过基于信息熵的项进行正则化的蕴含损失进一步校准不确定性。借助所提出的损失函数,UNCHA能够学习具有更精确部分-整体排序关系的双曲嵌入,从而捕捉图像中潜在的组合结构,并提升对复杂多对象场景的理解能力。UNCHA在零样本分类、检索和多标签分类基准测试中实现了最先进的性能。我们的代码和模型已开源:https://github.com/jeeit17/UNCHA.git。
现有提升大型视觉语言模型(LVLMs)效率的方法主要基于视觉令牌压缩的概念。然而,这种方法会形成信息瓶颈,损害模型性能,尤其在需要细粒度理解和推理的复杂任务上表现更为明显。本研究通过引入"按需视觉机制"(VISOR)对这一范式提出挑战,该方法能在保留完整视觉信息的前提下降低推理成本。VISOR并非压缩图像,而是通过稀疏化图像与文本令牌间的交互来提升效率。具体而言,语言模型通过少量精心布局的注意力层处理全量高分辨率视觉令牌:基础视觉上下文由文本-图像间的高效交叉注意力提供,而少数动态选择的自注意力层则对视觉表征本身进行精细化处理,从而在需要时实现复杂的高分辨率推理。基于此原理,我们首先通过调整自注意力层数量,训练出适用于不同计算预算的通用网络,随后引入轻量级策略机制,根据样本复杂度动态分配视觉计算资源。大量实验表明,VISOR在显著降低计算成本的同时,在一系列多样化基准测试中达到或超越了现有最优结果,并在需要精细视觉理解的挑战性任务中表现卓越。
随着企业用户日益依赖AI代理通过自然语言查询数据,构建可靠的数据代理仍面临挑战。现实世界的数据往往分散在多个异构数据库系统中,存在引用不一致问题,且信息埋藏于非结构化文本中。现有基准仅解决局部问题——如将自然语言问题转换为SQL查询、基于上下文提供的小型表格回答问题——但未能评估跨多数据库系统进行数据整合、转换与分析的全流程。为填补这一空白,我们基于对六大行业企业数据代理工作负载的形态研究,提出了数据代理基准(DAB)。该基准涵盖12个数据集、9个领域、4种数据库管理系统中的54个查询任务。在DAB测试中,性能最优的前沿模型(Gemini-3-Pro)仅达到38%的pass@1准确率。我们对五款前沿大语言模型进行基准测试,分析其失败模式,并提炼出未来数据代理开发的要点。基准框架与实验代码已发布于github.com/ucbepic/DataAgentBench。
确定性预执行安全门控评估个体智能体行为是否与其分配角色相符。尽管在单动作授权方面表现优异,这类系统在结构上无法识别将恶意意图分解为多个独立合规步骤的分布式攻击。本文提出会话风险记忆(SRM)——一种轻量级确定性模块,通过轨迹级授权扩展无状态执行门控机制。SRM维护表征智能体会话行为演化的紧凑语义质心,并通过对基线修正门控输出进行指数移动平均来累积风险信号。该模块与底层门控系统采用相同的语义向量表示,无需额外模型组件、训练或概率推断。我们在包含慢速渗透、渐进权限提升及合规性漂移场景的80轮多回合基准测试中评估SRM。结果表明:ILION+SRM实现F1=1.0000且误报率为0%,而无状态ILION的F1=0.9756且误报率达5%,同时两者均保持100%检测率。关键的是,SRM在每回合低于250微秒的开销下消除了所有误报。该框架提出了空间授权一致性(按动作评估)与时间授权一致性(按轨迹评估)的概念区分,为智能体系统会话级安全提供了理论基础。
无参考图像质量评估(NR-IQA)旨在无需原始参考图像的情况下估计感知质量。学习NR-IQA模型面临一个根本性瓶颈:需要大量昂贵的人工感知标签。我们提出SHAMISA框架,这是一种非对比自监督范式,通过利用显式结构化的关系监督从无标注的失真图像中学习。与先前施加刚性二元相似性约束的方法不同,SHAMISA引入了隐式结构关联——定义为从合成元数据和内在特征结构推断出的、兼具失真感知与内容敏感特性的可调控软关系。核心创新在于组合失真引擎,该引擎能从连续参数空间生成不可数级的失真族系,并通过分组确保每次仅有一个失真因子发生变化。这使得在训练过程中能对表征相似性进行细粒度控制:具有相同失真模式的图像在嵌入空间中相互靠近,而失真程度的变化则产生结构化、可预测的偏移。我们通过双源关系图整合这些洞察,该图同时编码已知退化特征和涌现的结构亲和性,以全程指导学习过程。卷积编码器在此监督下训练后冻结用于推理,质量预测通过线性回归器对其特征执行。在合成、真实及跨数据集NR-IQA基准上的大量实验表明,SHAMISA在无需人工质量标注或对比损失的情况下,实现了优异的整体性能,并提升了跨数据集泛化能力与鲁棒性。