每日精选AI研究论文及翻译
以数据为中心的训练方法已成为提升大语言模型(LLMs)性能的重要方向,其核心在于不仅优化模型参数,更在优化过程中动态调整训练数据的选择、组合与权重分配。然而,现有数据选择、数据混合优化和数据重加权等方法往往基于相互孤立的代码库开发,接口规范不统一,严重阻碍了方法复现、公平比较与实际集成。本文提出DataFlex——一个基于LLaMA-Factory构建的统一数据中心化动态训练框架。该框架支持样本选择、领域混合调整和样本重加权三大动态数据优化范式,同时完全兼容原有训练流程。通过提供可扩展的训练器抽象与模块化组件,DataFlex能够直接替代标准LLM训练流程,并统一了嵌入提取、推理和梯度计算等关键模型相关操作,支持包括DeepSpeed ZeRO-3在内的大规模训练场景。我们在多种数据中心化方法上开展综合实验:动态数据选择在Mistral-7B和Llama-3.2-3B模型上均能稳定超越MMLU基准的静态全数据训练效果;对于数据混合优化,在SlimPajama数据集上以60亿和300亿token规模预训练Qwen2.5-1.5B时,DoReMi与ODM方法相较默认比例同时提升了MMLU准确率与语料库级别困惑度;DataFlex还实现了相较原版代码的持续运行效率提升。这些结果表明,DataFlex为LLM的数据中心化动态训练提供了高效、可复现的基础设施支持。
潜在空间正迅速崛起为语言模型的原生计算基质。尽管现代系统通常仍通过显式的词元级生成被理解,但越来越多的研究表明,许多关键内部过程在连续潜在空间中的运行比在人类可读的文本轨迹中更为自然。这一转变源于显式空间计算的结构性局限,包括语言冗余、离散化瓶颈、序列效率低下和语义损失。本文旨在系统梳理语言模型中潜在空间研究的统一图景与最新进展。我们将从基础、演进、机制、能力与展望五个递进视角组织论述:首先界定潜在空间的研究范畴,区分其与显式文本空间及视觉生成模型中潜在空间的本质差异;继而追溯该领域从早期探索到当前大规模拓展的演进脉络。为整合技术生态,我们通过机制与能力双重视角检视现有工作:机制视角聚焦架构设计、表示学习、计算范式与优化策略四大发展方向;能力视角则揭示潜在空间如何支撑推理、规划、建模、感知、记忆、协作与具身化等广泛能力谱系。在整合现有成果的基础上,我们进一步探讨关键开放挑战,并勾勒未来研究的可行路径。期望本综述不仅为现有研究提供参考框架,更助力将潜在空间建构为新一代智能系统的通用计算范式。
将生成式逆向渲染与正向渲染技术扩展至现实世界场景,其瓶颈在于现有合成数据集的真实感及时序连贯性有限。为弥合这一长期存在的领域差距,我们引入了从视觉复杂的3A游戏中采集的大规模动态数据集。通过新颖的双屏拼接采集方法,我们在多样化场景、视觉效果及环境(包括恶劣天气和动态模糊变体)中提取了400万帧连续画面(720p/30 FPS),包含同步的RGB图像和五个G-buffer通道。该数据集独特地推动了双向渲染的发展:既支持在真实场景下进行鲁棒的几何与材质分解,又为基于G-buffer引导的高保真视频生成提供支持。此外,为在无真实值条件下评估逆向渲染的实际性能,我们提出了基于视觉语言模型的全新评估协议,从语义、空间和时序三个维度衡量一致性。实验表明,基于本数据微调的逆向渲染器实现了卓越的跨数据集泛化能力和可控生成效果,而我们的VLM评估结果与人类判断高度吻合。结合我们的工具包,所提出的正向渲染器可使用户通过文本提示直接编辑3A游戏的G-buffer风格。
智能体技能作为程序性知识与可执行资源的结构化封装包,在推理时被智能体动态加载,已成为增强大语言模型智能体的可靠机制。然而推理时的技能增强存在根本性局限:检索噪声会引入无关指导,注入的技能内容会产生大量令牌开销,且模型从未真正掌握其仅被动遵循的知识。我们提出一种新思路:能否将技能内化至模型参数中,实现无需运行时技能检索的零样本自主行为?为此我们推出SKILL0——一个专为技能内化设计的上下文强化学习框架。SKILL0采用以完整技能上下文为起点并逐步撤除的训练课程机制:离线按类别组织技能,将交互历史转化为紧凑的视觉上下文,指导模型学习工具调用与多轮任务完成。动态课程模块会评估每个技能文件在策略层面的有效性,仅保留当前策略在线性衰减预算内仍能受益的技能,直至智能体实现完全零样本运行。大量智能体实验表明,SKILL0相较标准强化学习基线取得显著提升(ALFWorld提升9.7%,Search-QA提升6.6%),同时保持每步少于0.5k令牌的高效上下文使用。代码已开源:https://github.com/ZJU-REAL/SkillZero。
我们推出EgoSim——一种闭环第一人称世界模拟器,能生成空间一致的交互视频并持续更新底层3D场景状态以实现连续仿真。现有第一人称模拟器或缺乏显式3D基础导致视角变化下的结构漂移,或将场景视为静态而无法更新多阶段交互中的世界状态。EgoSim通过将3D场景建模为可更新的世界状态,同时解决了这两大局限。我们通过几何动作感知的观测模拟模型生成具身交互,并借助交互感知状态更新模块确保空间一致性。为克服密集对齐的场景-交互训练数据难以获取造成的数据瓶颈,我们设计了可扩展流程,从野外大规模单目第一人称视频中提取静态点云、相机轨迹和具身动作。我们还推出EgoCap采集系统,支持使用未校准智能手机进行低成本现实世界数据采集。大量实验表明,EgoSim在视觉质量、空间一致性以及对复杂场景和野外灵巧交互的泛化能力上显著优于现有方法,同时支持跨具身迁移至机器人操作。代码与数据集即将开源,项目页面详见egosimulator.github.io。
诸如DINOv2和MAE等预训练视觉Transformer(ViT)能够提供适用于检索、分类与分割等多种下游任务的通用图像特征。然而,此类表征往往聚焦于图像中最显著的视觉线索,无法主动关注到次要的感兴趣概念。相比之下,多模态大语言模型虽可通过文本提示进行引导,但其生成的表征易偏向语言中心化,在通用视觉任务中的有效性会减弱。为此,我们提出可引导视觉表征这一新型视觉表征类别,其全局与局部特征均可通过自然语言进行定向引导。现有视觉-语言模型(如CLIP)多在编码后融合文本与视觉特征(后期融合),而我们将文本通过轻量级交叉注意力直接注入视觉编码器的各层级(早期融合)。我们建立了衡量表征可引导性的基准测试,并证明所提出的可引导视觉特征能在保持底层表征质量的同时聚焦于图像中任意目标对象。该方法在异常检测和个性化对象区分任务中达到或超越了专用方案的性能,并展现出对分布外任务的零样本泛化能力。
在评估个性化生成与图像编辑等以身份识别为核心的任务时,现有视觉编码器往往将目标身份与背景信息相纠缠,导致表征和度量结果不可靠。我们首次提出基于近身份干扰样本(NearID)的 principled 框架来解决这一缺陷:通过将语义相似但身份不同的实例置于与参考图像完全一致的背景中,消除上下文捷径干扰,使身份特征成为唯一的判别信号。基于此原理,我们构建了包含1.9万个身份、31.6万组背景匹配干扰样本的NearID数据集,并制定了严格的边界评估协议。在该设定下,预训练编码器表现不佳,其样本成功率(SSR,一种严格的边界身份判别指标)低至30.7%,且常将干扰样本排序置于真实跨视角匹配结果之上。针对此问题,我们在冻结骨干网络的基础上通过双层对比目标学习身份感知表征,强制建立“同一身份 > 近身份干扰样本 > 随机负样本”的层级关系。该方法将SSR提升至99.2%,局部判别能力增强28.0%,并在人类对齐的个性化评估基准DreamBench++上展现出更优的人类判断一致性。项目页面:https://gorluxor.github.io/NearID/
统一模型(UMs)因其理解与生成跨异构模态内容的能力而展现出巨大潜力。与单纯生成视觉内容相比,利用统一模型进行交错式跨模态推理更具前景和价值,例如解决需要密集视觉思维的理解问题、通过自我反思改进视觉生成,或在逐步行动干预指导下对物理世界的视觉动态进行建模。然而,现有统一模型由于采用割裂的视觉表示体系,必须依赖像素解码作为理解与生成之间的桥梁,这种方式既低效又不经济。本文提出LatentUM——一种在共享语义潜空间内表征所有模态的新型统一模型,消除了视觉理解与生成之间对像素空间中介的依赖。该设计天然支持灵活的交错式跨模态推理与生成。除提升计算效率外,共享表征显著减轻了编解码器偏差并强化了跨模态对齐,使LatentUM在视觉空间规划基准测试中达到最优性能,通过自我反思突破视觉生成的极限,并能在共享语义潜空间内预测未来视觉状态以支持世界建模。
随着AI智能体在长时程任务中的日益普及,其多模态经验的存储、组织与调用能力仍存在关键瓶颈。构建有效的终身记忆系统需在架构设计、检索策略、提示工程和数据管道等广阔设计空间中进行探索——这一空间过于庞大且相互关联,难以通过人工探索或传统自动机器学习实现有效优化。我们采用自主研究流水线发现了Omni-SimpleMem,这是一个面向终身AI智能体的统一多模态记忆框架。从初始基线(LoCoMo基准F1=0.117)出发,该流水线在无人干预的情况下自主执行了约50组实验,涵盖两大基准测试:通过诊断故障模式、提出架构改进方案并修复数据管道缺陷,最终实现的系统在两项基准上均达到最先进水平——相较于初始配置,LoCoMo的F1值提升411%(0.117→0.598),Mem-Gallery提升214%(0.254→0.797)。关键发现在于,最具影响力的改进并非超参数调整:错误修复(+175%)、架构变更(+44%)及特定类别的提示工程优化(+188%)各自贡献均超越所有超参数调优的总和,这证明了该方案具有传统自动机器学习无法企及的能力。我们提出了六类发现类型的分类法,并总结出使多模态记忆特别适合自主研究的四大特性,为将自主研究流水线应用于其他AI系统领域提供指引。代码已开源:https://github.com/aiming-lab/SimpleMem。
现有视频物体移除方法在修复物体"后方"内容及校正阴影、反射等表层伪影方面表现卓越。然而当被移除物体存在更显著的交互行为(如与其他物体发生碰撞)时,当前模型难以修正此类物理互动,导致生成结果有违常理。我们提出VOID框架,专为处理这类复杂场景下的物理可信修复而设计。为训练模型,我们基于Kubric和HUMOTO构建了包含反事实物体移除的配对数据集,其中移除物体需同步改变后续物理互动。推理阶段通过视觉语言模型识别受移除物体影响的场景区域,进而引导视频扩散模型生成物理一致的反事实结果。在合成数据与真实数据上的实验表明,相较于现有视频物体移除方法,本方案能更好地保持物体移除后场景动态的一致性。我们期望该框架能通过高层因果推理,为视频编辑模型实现更精准的世界模拟提供新思路。
我们探讨这样一个问题:当大型语言推理模型做出选择时,究竟是先思考后决策,还是先决策后思考?本文通过实验证明,可检测的早期编码决策会塑造推理模型中的思维链。具体而言,我们发现简单线性探针能以极高置信度从生成前激活状态中解码工具调用决策,某些情况下甚至在首个推理标记产生前即可实现。激活导向实验从因果层面支持这一结论:扰动决策方向会导致审议过程膨胀,并在大量样本中引发行为翻转(不同模型和基准下的翻转率为7%-79%)。行为分析进一步表明,当导向改变决策时,思维链过程往往会对翻转结果进行合理化解释而非抵抗。这些结果共同表明,推理模型在开始文本层面的推演之前,可能已对行为选择进行了编码。
视觉-语言-动作模型近期在自动驾驶领域崭露头角,其通过利用丰富的世界知识来提升驾驶系统认知能力的潜力备受关注。然而,当前该类模型在适应驾驶任务时面临空间感知与语义推理之间的核心矛盾。现有VLA系统不得不做出次优妥协:直接采用2D视觉语言模型会导致空间感知能力受限,而通过3D空间表征增强又会损害其原有的推理能力。我们认为这一矛盾主要源于空间感知与语义推理在共享模型参数中的耦合优化。为此,我们提出UniDriveVLA——基于混合专家Transformer的统一驾驶视觉-语言-动作模型,通过专家解耦机制解决感知与推理的冲突。具体而言,模型包含驾驶理解、场景感知和动作规划三大专家模块,通过掩码联合注意力进行协同。此外,我们结合稀疏感知范式与三阶段渐进式训练策略,在保持语义推理能力的同时提升空间感知性能。大量实验表明,UniDriveVLA在nuScenes开环评估和Bench2Drive闭环评估中均达到最先进水平。该模型在3D检测、在线建图、运动预测及驾驶导向视觉问答等广泛任务中均展现出色性能,凸显其作为自动驾驶统一模型的广泛适用性。代码与模型已发布于https://github.com/xiaomi-research/unidrivevla。
人工智能能否加速其自身发展?尽管近期智能体系统已在反馈迅速的明确任务中展现出强大性能,但其能否应对推动真实AI进步所需的高成本、长周期、弱监督的研究闭环仍存疑问。我们提出ASI-Evolve——一个面向AI自我研究的智能体框架,通过"学习-设计-实验-分析"循环实现闭环研究。该框架通过两大核心组件增强标准进化智能体:注入人类先验知识的认知基库,以及将复杂实验结果提炼为可复用见解的专用分析器。据我们所知,ASI-Evolve是首个在AI开发三大核心维度(数据、架构、学习算法)均实现AI自主发现的统一框架。在神经架构搜索中,该系统发现105个线性注意力SOTA架构,最优模型较DeltaNet提升0.97个点,增益达近期人工设计改进的3倍;在预训练数据构建方面,进化流程使基准任务平均提升3.96个点,MMLU任务增益超18点;在强化学习算法设计中,新算法在AMC32、AIME24和OlympiadBench上分别较GRPO提升12.5、11.67和5.04个点。我们进一步通过数学与生物医学实验证明,这种AI自我研究范式可迁移至非AI领域。这些结果表明ASI-Evolve为实现AI在基础研发阶段自我加速迈出重要一步,为闭环AI研究可行性提供了早期实证。
大型代码生成语言模型的兴起正在重塑软件开发范式。能够自主创建分支、开启拉取请求和执行代码审查的智能编程代理,如今已活跃在真实项目的贡献中。其日益增长的影响力为研究AI驱动贡献及其对代码质量、团队协作与软件可维护性的影响提供了独特而适时的契机。本研究构建了一个包含约11万条开源拉取请求的新型数据集,涵盖关联提交、评论、审查、议题及文件变更,共同构成了数百万行源代码的完整图谱。我们比较了包括OpenAI Codex、Claude Code、GitHub Copilot、Google Jules和Devin在内的五款主流编程代理,从合并频率、修改文件类型以及开发者互动信号(如评论与审查)等多维度剖析其应用差异。值得注意的是,代码编写与审查仅是软件工程流程的冰山一角,生成代码的长期维护与迭代同样至关重要。为此,我们针对智能体生成代码与人工编写代码进行了纵向追踪,提出了存活率与变更率的若干量化评估。最终数据显示,尽管开源项目中智能体参与度持续攀升,但其贡献的代码随时间推移产生的变更量显著高于人工编写代码。
基于大语言模型(LLM)的进化方法为开放式发现提供了前景广阔的路径——这类探索需要持续的知识积累与搜索机制。现有方法仍严重依赖固定启发式规则与硬编码的探索策略,限制了LLM智能体的自主性。我们提出CORAL,首个面向开放式问题的自主多智能体进化框架。该框架通过共享持久化内存、异步多智能体执行和基于心跳信号的干预机制,使长期运行的智能体能够自主探索、反思与协作,从而取代僵化控制。CORAL还提供隔离工作区、评估器分离、资源管理、智能体会话与健康管理等实用保障机制。在数学、算法和系统优化等多样化任务上的实验表明,CORAL在10项任务中刷新了最优性能记录,相较于固定进化搜索基线,仅需极少的评估次数即可实现3-10倍的提升幅度。在Anthropic内核工程任务中,四个协同进化的智能体将已知最佳成绩从1363周期提升至1103周期。机理分析进一步揭示了知识复用、多智能体探索与通信对性能增益的贡献。这些结果表明,增强智能体自主性与多智能体协同进化能显著推动开放式发现进程。代码已开源:https://github.com/Human-Agent-Society/CORAL。
GUI流程自动化(GPA)是一种轻量级但通用的基于视觉的机器人流程自动化(RPA)技术,仅需单次演示即可实现快速稳定的流程回放。针对传统RPA的脆弱性和当前基于视觉语言模型的GUI代理的非确定性风险,GPA具备三大核心优势:(1)通过基于序贯蒙特卡洛的定位技术处理界面缩放和检测不确定性,实现鲁棒性;(2)通过就绪状态校准确保确定性与可靠性;(3)通过快速全本地执行保障隐私安全。该方法为企业工作流提供了所需的适应性、鲁棒性和安全性。GPA还可作为MCP/CLI工具被具备编码能力的其他智能体调用,实现智能体专注决策编排而GPA负责GUI执行的分工模式。我们通过对比实验发现,在完成长周期GUI任务时,GPA相比Gemini 3 Pro(配备CUA工具)成功率更高,且执行速度提升10倍。
视觉-语言-动作模型在机器人操控任务中展现出强大性能,但其对物理可实现对抗攻击的鲁棒性研究仍不充分。现有研究通过语言扰动和二维视觉攻击揭示了系统脆弱性,但这些攻击面要么难以代表实际部署场景,要么缺乏物理真实性。相比之下,对抗性三维纹理因其可自然附着于被操控物体表面且易于在物理环境中部署,构成了更具物理可行性和破坏性的威胁。然而将对抗性三维纹理引入VLA系统面临核心挑战:标准三维模拟器无法提供从VLA目标函数到物体外观的可微分优化路径,导致难以进行端到端优化。为此,我们提出前景-背景解耦技术,通过双渲染器对齐实现可微分纹理优化,同时保持原始模拟环境不变。为确保攻击在物理世界长时程、多视角下持续有效,我们进一步提出轨迹感知对抗优化算法,该算法优先处理行为关键帧,并采用基于顶点的参数化方法稳定优化过程。基于这些设计,我们开发了Tex3D——首个直接在VLA模拟环境中实现三维对抗纹理端到端优化的框架。模拟与真实机器人实验表明,Tex3D能在多种操控任务中显著降低VLA性能,最高可使任务失败率达到96.7%。我们的实证结果揭示了VLA系统对物理三维对抗攻击的关键脆弱性,凸显了鲁棒性感知训练的必要性。
视频扩散模型展现出解决迷宫与谜题等涌现推理能力,但其生成过程中的推理机制尚不明确。我们以二维迷宫求解为受控实验平台,首次对视频模型的内部规划动态展开研究。研究发现主要有二:首先是早期规划承诺现象——视频扩散模型在前几个去噪步骤中即确定高层运动规划,后续去噪仅改变视觉细节而不影响底层轨迹;其次是路径长度(而非障碍物密度)成为迷宫难度的决定性因素,且在12步处存在明显失效阈值。这表明视频模型需通过多轮序列生成串联才能推理长迷宫。基于此,我们提出"早期规划链式推理法"(ChEaP),该方法仅对具有潜力早期规划的种子进行计算,并通过链式拼接应对复杂迷宫。在Wan2.2-14B和HunyuanVideo-1.5模型上的实验表明,该方法将长视野迷宫求解准确率从7%提升至67%,在Frozen Lake和VR-Bench硬任务上整体性能提升2.5倍。我们的分析揭示,当前视频模型具有比既往认知更深刻的推理能力,通过改进推理时缩放策略可更可靠地激发这种能力。
尽管图像生成技术通过快速发展推动了多种应用,但当前最先进的模型能否为论文生成可直接使用的学术插图仍有待探索。直接使用视觉语言模型(VLM)比较或评估插图虽直观,但需要理想的多模态理解能力,这对于冗长复杂的文本和插图而言并不可靠。为此,我们提出AIBench——首个通过视觉问答(VQA)评估学术插图逻辑正确性、并利用VLM评估美学价值的基准框架。具体而言,我们根据论文方法部分总结的逻辑图设计了四个层级的问题,从不同尺度检验生成插图与论文内容的一致性。基于VQA的评估方法在降低对评判VLM能力依赖的同时,能对视觉-逻辑一致性进行更精准细致的评估。通过高质量构建的AIBench,我们开展了大量实验并发现:模型在此任务上的性能差距远大于通用任务,反映出其复杂推理和高密度生成能力的差异。此外,逻辑性与美学性难以像手工插图那样同步优化。补充实验进一步表明,对两种能力进行测试时扩展能显著提升该任务的表现。
近期视频多模态大模型在各类基准测试中表现卓越,但现有评估存在两大关键缺陷:(1)虚高的评分可能掩盖细粒度视觉理解与推理能力的不足;(2)答案正确性的衡量往往未验证模型是否识别出支撑其预测的精确时空证据。为此,我们提出VideoZeroBench——一个针对挑战性长视频问答任务设计的层次化基准,可严格验证时空证据。该基准包含13个领域的500个人工标注问题,每个问题均配有作为证据的时间区间和空间边界框。为区分答案生成、时间定位与空间定位能力,我们引入五级评估协议,逐级收紧证据要求。实验表明,即使在标准端到端问答设置(第三级)下,Gemini-3-Pro的正确答题率也不足17%。当施加定位约束时,模型性能急剧下降:在要求同时具备正确答案和精确时空定位的第五级评估中,所有模型准确率均未超过1%,多数模型甚至无法实现任何正确的基础定位预测。这些结果揭示了表层答案正确性与真正基于证据的推理之间存在显著差距,表明基础视频理解仍是长视频问答的瓶颈。我们进一步从最小证据跨度、原子能力维度及推理范式等角度展开分析,为未来基础视频推理研究提供洞见。本基准与代码将公开共享。
成员推理攻击(MIAs)作为评估机器学习模型训练数据泄露的基本审计工具,其现有方法主要依赖静态的手工启发式规则,缺乏适应性,在跨不同大模型迁移时往往表现不佳。本研究提出AutoMIA——一种将成员推理重构为自我探索与策略演化的自动化智能体框架。该框架通过高层场景规范,在可执行的对数层面生成攻击策略,并借助闭环评估反馈持续优化,实现攻击空间的自主探索。通过将抽象策略推理与底层执行解耦,我们的框架实现了模型无关的系统化攻击空间遍历。大量实验表明,AutoMIA在免去手动特征工程的同时,持续达到或超越现有最优基线方法的性能。
在企业与政策制定者面临的核心挑战中,供应链中断的预判始终位居前列。关键难点在于如何从嘈杂的非结构化数据中,对低频高影响事件进行可靠推演——这一场景下通用模型若未经任务适配往往表现不佳。我们提出一种端到端框架,通过已发生的中断结果作为监督信号,训练大语言模型生成经过校准的概率预测。实验表明,该模型在准确性、校准度和精确度上显著优于包括GPT-5在内的强基线模型。研究还发现,训练过程能诱导出更结构化、更可靠的概率推理能力,且无需显式提示。这些成果为训练领域专用预测模型提供了通用路径,使其能生成可直接支撑决策的信号。为促进研究透明性,我们开源了本研究的评估数据集。 数据集地址:https://huggingface.co/datasets/LightningRodLabs/supply-chain-predictions
将预训练语言模型(LM)适配为视觉语言模型(VLM)时,由于多模态适应过程中引入的表征偏移和跨模态干扰,可能削弱其原有的语言能力。此类能力损失即使采用针对性任务微调也难以恢复。现有恢复方法通常通过引入中间对齐层来维持或隔离模态特定子空间,但这会增加架构复杂性、推理时参数数量,并限制模型与场景的灵活性。我们提出LinguDistill——一种无需适配器的蒸馏方法,通过将原始冻结LM作为教师模型来恢复语言能力。我们通过引入分层KV缓存共享技术,在不改变双方模型架构的前提下使教师模型感知学生的多模态表征,从而解决了视觉条件化教师监督的关键挑战。随后,我们在语言密集型数据上选择性蒸馏教师的强语言信号以恢复语言能力,同时保留学生在多模态任务中的视觉基础。实验表明,LinguDistill可在视觉密集型任务性能持平的前提下,恢复语言与知识基准测试中约10%的性能损失。我们的研究证明,无需附加模块即可恢复语言能力,为多模态模型中模态特定退化问题提供了高效实用的解决方案。
我们推出多语言文档解析基准测试集(Multilingual Document Parsing Benchmark),这是首个针对多语言数字化文档与拍摄文档解析的基准测试体系。当前文档解析技术虽取得显著进展,但几乎完全集中于少数主流语言的整洁、数字化、格式规范的页面。现有评估体系缺乏对多文字体系及低资源语言的数字化与拍摄文档模型性能的系统性评测标准。MDPBench包含3,400份涵盖17种语言、多种文字体系及不同拍摄条件的文档图像,通过专家模型标注、人工校正与多人核验的严格流程生成高质量标注。为确保公平比较并防止数据泄露,我们设置了独立的公开与非公开评估集。对开源与闭源模型的综合评估揭示了一个惊人发现:闭源模型(特别是Gemini3-Pro)表现出相对稳健的性能,而开源模型则出现显著性能滑坡——尤其在非拉丁文字和真实场景拍摄文档上,拍摄文档平均下降17.8%,非拉丁文字平均下降14.0%。这些结果揭示了跨语言与跨场景的显著性能失衡,为构建更具包容性、可部署的解析系统指明了具体方向。源码详见https://github.com/Yuliang-Liu/MultimodalOCR。
连续图像编辑旨在通过滑块式控制调节编辑强度,同时保持源图像保真度与编辑方向一致性。现有基于学习的滑块方法通常依赖通过合成数据或代理监督训练的辅助模块,这不仅增加了训练开销,还将滑块行为与训练数据分布耦合,导致在编辑任务或领域分布变化时可靠性降低。我们提出FlowSlider——一种基于Rectified Flow的无训练连续编辑方法。该方法将FlowEdit的更新分解为:(i) 保真项,作为源条件稳定器保持图像身份与结构;(ii) 导向项,驱动语义向目标编辑方向转变。几何分析与实证测量表明这两项近似正交,通过仅缩放导向项并保持保真项不变,可实现稳定的强度控制。因此FlowSlider无需后训练即可提供平滑可靠的调控,在多类任务中提升连续编辑质量。
尽管近期取得进展,视频扩散模型在合成涉及剧烈动态运动或需要细粒度运动控制度的真实视频时仍面临挑战。核心限制在于常用训练数据集中此类样本的稀缺性。为此,我们推出DynaVid视频合成框架,该框架通过计算机图形管线渲染的光流形式利用合成运动数据进行训练。该方法具有两大优势:首先,合成运动能提供真实数据难以获取的多样化运动模式和精确控制信号;其次,与具有人工外观的渲染视频不同,渲染光流仅编码运动信息且与外观解耦,从而避免模型重现合成视频的不自然观感。基于此思路,DynaVid采用两阶段生成框架:运动生成器先合成运动模式,再由运动引导的视频生成器根据运动条件生成视频帧。这种解耦设计使模型既能从合成数据学习动态运动模式,又能保持真实世界视频的视觉逼真度。我们在现有数据集特别受限的两个挑战性场景(剧烈人体运动生成与极端摄像机运动控制)上验证了框架有效性。大量实验表明,DynaVid在动态运动生成与摄像机运动控制的真实感和可控性方面均有显著提升。
当前多模态大语言模型已在图文理解与生成任务上取得显著进展,但由于数据稀缺,将此类原生能力扩展至三维领域仍具挑战。相较于海量的二维图像,高质量三维资产极为有限,导致三维合成任务存在约束不足的问题。现有方法多依赖间接流程,即先在二维空间编辑再通过优化将结果提升至三维,这种方式会牺牲几何一致性。我们提出Omni123——一种三维原生的基础模型,通过自回归框架统一文本到二维与文本到三维的生成任务。核心发现在于:图像与三维数据间的跨模态一致性可作为隐式结构约束。通过将文本、图像和三维数据表示为共享序列空间中的离散标记,模型能够利用丰富的二维数据作为几何先验来优化三维表征。我们引入交错式X到X训练范式,在异构配对数据集上协调多种跨模态任务,无需完全对齐的文本-图像-三维三元组。通过在自回归序列中实现语义-视觉-几何循环(如文本→图像→三维→图像),模型可联合强化语义对齐、外观保真度与多视角几何一致性。实验表明,Omni123在文本引导的三维生成与编辑任务上实现显著提升,为构建多模态三维世界模型提供了可扩展路径。
传统科学发现依赖于延续数世纪的"假设-实验-优化"循环迭代模式,但其依赖直觉的临时性实施常导致资源浪费、设计低效与关键洞察缺失。本教程系统阐述贝叶斯优化(BO)——一种将这一核心科学循环形式化与自动化的概率驱动框架。BO通过代理模型(如高斯过程)将实证观测建模为动态演进的假设,利用采集函数指导实验选择,在已知领域开发与未知领域探索间实现平衡,从而消除猜测与人工试错。我们首先将科学发现构建为优化问题,继而解析BO的核心组件、端到端工作流,并通过催化、材料科学、有机合成及分子发现等案例展示其实际效能。教程还涵盖面向科学应用的关键技术扩展,包括批量实验、异方差处理、情境优化及人机协同集成。本教程面向广泛受众,将BO的人工智能进展与自然科学实践相衔接,通过分层内容设计助力跨学科研究者设计更高效的实验,推动范式化的科学发现进程。
前沿开源模型普遍采用基于可验证奖励的强化学习(RLVR)技术构建跨领域通用推理模型,但其训练方案与领域混合策略往往不予公开。跨领域联合优化面临显著挑战:各领域在推演长度、问题难度和样本效率方面差异巨大。此外,长链思维轨迹会加剧推理成本与延迟,使得效率成为实际部署的关键。我们提出Apriel-Reasoner,基于150亿参数开源大模型Apriel-Base,采用完全可复现的多领域RL后训练方案,在数学、代码生成、指令遵循、逻辑谜题和函数调用五个公共数据集领域进行训练。我们引入自适应领域采样机制,在异质化推演动态下保持目标领域比例;并提出标准长度惩罚的难度感知扩展方案,无需额外训练开销即可促使模型对难题延长推理、对易题缩短轨迹。在严格遵循16K令牌输出预算的训练条件下,Apriel-Reasoner在推理时能泛化至32K令牌,在AIME 2025、GPQA、MMLU-Pro和LiveCodeBench基准上超越Apriel-Base,同时生成缩短30-50%的推理轨迹。该模型以更低令牌成本达到同规模强开源模型水平,从而推进了准确率与令牌预算的帕累托前沿。
自回归神经编解码语言模型已展现出强大的零样本语音克隆能力,但纯解码器架构将输入文本视为前缀,使其与持续增长的音频序列竞争位置编码容量,导致长语音的文本条件化效果减弱。我们提出T5Gemma-TTS——一种编码器-解码器架构的编解码语言模型,通过在每个解码层使用交叉注意力机制传递双向文本表征,从而保持持久的文本条件化。该模型基于T5Gemma预训练的编码器-解码器主干网络(20亿参数编码器+20亿参数解码器,共40亿参数),无需音素转换即可继承丰富的语言知识,直接在子词级别处理文本。为提升时长控制能力,我们在全部26个交叉注意力层中引入进度监控旋转位置编码(PM-RoPE),通过注入归一化的进度信号帮助解码器追踪目标语音长度。基于17万小时多语言(英语、中文、日语)语音数据训练的T5Gemma-TTS,在日语说话人相似度上较XTTSv2实现统计显著提升(0.677 vs 0.622;非重叠95%置信区间),对未参与训练的韩语也取得最高数值相似度(0.747),虽较XTTSv2(0.741)的领先优势未达统计显著性。该模型在五个基线中取得最低数值日语字符错误率(0.126),但因与Kokoro存在部分置信区间重叠,需谨慎看待该排名。基于LibriSpeech的英语结果应视为上限估计,因LibriHeavy是LibriSpeech的超集。使用同一模型参数时,在推理阶段禁用PM-RoPE会导致合成近乎失效:字符错误率从0.129恶化至0.982,时长准确率从79%降至46%。代码与权重已开源:https://github.com/Aratako/T5Gemma-TTS。
基于扩散模型的可控视觉生成技术近期取得显著进展,图像质量实现重大突破。然而,这类强大模型通常因计算需求庞大而部署于云端服务器,引发用户数据隐私的严重关切。为实现安全高效的端侧生成,本文探索基于线性注意力架构的可控扩散模型,该架构即便在边缘设备上也具备卓越的可扩展性与效率。但实验表明,现有可控生成框架(如ControlNet与OminiControl)在线性注意力模型上存在局限:要么缺乏支持多类型异构条件的灵活性,要么面临收敛速度缓慢的问题。针对这些不足,我们提出一种专为SANA等线性注意力骨干网络设计的新型可控扩散框架。该方法的核心在于采用双路径流水线的统一门控条件模块,可有效整合空间对齐与非对齐提示等多类型条件输入。在多任务与多基准测试上的广泛实验表明,我们的方法基于线性注意力模型实现了最先进的可控生成性能,在保真度与可控性方面均超越现有方法。
尽管延迟交互模型展现出强大的检索性能,但其底层动态机制仍有诸多未解之处,可能隐藏着性能瓶颈。本研究聚焦延迟交互检索中的两个核心问题:使用多向量评分时产生的长度偏差,以及经MaxSim算子池化后的最优分数之外的相似度分布特性。我们在NanoBEIR基准上对前沿模型展开分析,结果表明:因果延迟交互模型的理论长度偏差在实践中确实存在,而双向模型在极端情况下也会受其影响。同时研究发现,除文档标记的top-1相似度外,其余相似度未呈现显著趋势,这验证了MaxSim算子能有效挖掘标记级相似度评分的潜力。
当前基于大语言模型的代码生成代理遵循串行执行范式:模型首先生成完整代码,随后调用解释器执行。这种顺序工作流导致生成阶段执行器闲置、执行阶段生成器闲置,造成不必要的端到端延迟。我们观察到,与人类开发者不同,大语言模型以不可修订的顺序方式生成代码标记,这使得代码在生成过程中即可被执行成为可能。我们将这种并行执行范式形式化为包含生成、检测与执行的三级流水线,并通过闭式延迟边界刻画其加速潜力与运行区间。随后提出Eager系统实现方案,其核心特性包括基于抽象语法树的代码分块、带门控执行的动态批处理以及早期错误中断机制。我们在四个基准测试集、七种大语言模型及三种执行环境中对Eager进行评估。实验结果表明,Eager在七种大语言模型和四个基准测试中,将非重叠执行延迟降低最高达99.9%,端到端延迟降低最高达55%。
随着大语言模型(LLM)智能体在软件工程等开放领域日益广泛应用,它们频繁面临关键上下文缺失的模糊指令。虽然人类开发者能通过主动提问自然化解模糊性,但当前智能体主要针对自主执行进行优化。本研究基于SWE-bench Verified的模糊指令变体,系统评估了LLM智能体的澄清寻求能力。我们提出一种不确定性感知的多智能体框架,将模糊性检测与代码执行显式解耦。实验结果表明:采用OpenHands+Claude Sonnet 4.5的多智能体系统任务解决率达到69.40%,显著优于标准单智能体设置(61.20%),并与处理完整明确指令的智能体性能差距大幅缩小。进一步研究发现,该多智能体系统展现出良好校准的不确定性判断能力——对简单任务保持查询克制,而对复杂问题则主动寻求信息。这些发现表明,现有模型可转化为主动协作型智能体,使其在现实世界的模糊任务中能自主识别提问时机以获取缺失信息。
音频研究领域依赖开放生成模型作为构建创新方法和建立基准的基础工具。本报告介绍索尼AI公开推出的音效基础模型Woosh,详述其架构设计、训练流程以及与主流开放模型的对比评估。该模型针对音效生成进行优化,提供:(1) 高质量音频编解码器模型,(2) 用于条件控制的文本-音频对齐模型,(3) 文本到音频及(4) 视频到音频的生成模型。本次发布同时包含蒸馏优化的文本/视频到音频模型,支持低资源运行与快速推理。在公开及私有数据集上的评估表明,相较于StableAudio-Open、TangoFlux等现有开放方案,各模块均展现出竞争优势。推理代码与模型权重已发布于https://github.com/SonyResearch/Woosh,演示样本可访问https://sonyresearch.github.io/Woosh/。
视觉语言模型(VLMs)常对同一物体在不同视角下产生不一致的描述,这制约了具身智能体构建持续语义表征的能力。现有方法通过离线多视角聚合或多阶段流水线(解耦探索、数据关联与描述学习)来解决不一致性问题,但难以对历史观察对象进行推理。本文提出一种统一的记忆增强型视觉语言智能体,在自回归框架内同步处理数据关联、物体描述和探索策略。该模型通过处理当前RGB观测、自上而下的探索地图以及序列化为物体级标记的情景记忆,确保长时序中物体身份与语义的一致性。为实现自监督训练,我们在逼真3D环境中采用基于分歧的策略和伪描述模型收集数据集,该模型能强化多视角描述历史的一致性。在人工标注的物体级测试集上的大量实验表明,本方法在标准描述评分上较基线模型提升最高达11.86%,描述自相似度提升7.39%,同时通过紧凑场景表征实现可扩展性能。代码、模型权重及数据详见https://hsp-iit.github.io/epos-vlm/。
视频扩散技术的最新进展催生了能够模拟交互式环境的"世界模型",但现有模型大多局限于单智能体场景,难以同时控制场景中的多个主体。本研究针对当前视频扩散模型中存在的动作绑定问题——即无法将特定动作与其对应主体准确关联的缺陷,提出了面向生成式视频游戏的动作可控多主体世界模型ActionParty。该模型通过引入主体状态标记(一种持续捕捉场景中各主体状态的潜变量),结合空间偏置机制对状态标记与视频潜空间进行联合建模,从而实现了全局视频帧渲染与个体动作控制下主体更新的解耦。我们在Melting Pot基准测试中评估ActionParty,首次展示了能够在46种不同环境中同时控制多达七个玩家的视频世界模型。实验结果表明,该模型在动作执行准确性和身份一致性方面显著提升,并能通过复杂交互实现稳健的自回归主体追踪。
稀疏视角三维建模始终面临重建保真度与生成合理性的根本矛盾。前馈重建方法虽在效率与输入对齐方面表现优异,却常缺乏实现结构完整性所需的全局先验知识;而基于扩散的生成方法虽能提供丰富几何细节,却难以保证多视角一致性。我们提出UniRecGen统一框架,将两种范式整合至协同工作的系统中。为化解坐标空间、三维表征和训练目标的内在冲突,我们在共享规范空间中对齐双模型,采用解耦协同学习策略——既保持训练稳定性,又实现推理阶段的无缝协作。具体而言,重建模块经适配后可提供规范几何锚点,扩散生成器则通过潜在增强条件机制优化并补全几何结构。实验表明,UniRecGen在稀疏观测条件下能生成更完整、一致的三维模型,在保真度与鲁棒性方面均超越现有方法。
基于大语言模型的智能体应用日益依赖包含规划、行动执行与环境反馈的多步交互循环。尽管此类系统已实现规模化部署,但部署后的改进仍面临挑战。智能体交互轨迹体量庞大且具有非确定性,通过人工审核或辅助大语言模型对每条轨迹进行审查不仅效率低下,且成本高昂。我们提出一种基于轻量级信号的智能体交互轨迹分流框架。该方法从实时交互中计算低成本、广适用的信号,并将其作为结构化属性附加至轨迹进行分流,从而在不影响在线智能体行为的前提下识别可能蕴含信息的交互过程。我们将信号组织成涵盖交互层面(错位、停滞、脱离、满意度)、执行层面(失败、循环)与环境层面(资源耗尽)的粗粒度分类体系,该设计无需调用模型即可完成计算。在τ-bench(广泛使用的工具增强型智能体评估基准)上开展的受控标注研究表明,基于信号的采样方法实现了82%的信息价值率,优于启发式过滤的74%和随机采样的54%,且每条信息轨迹的获取效率提升1.52倍。该优势在不同奖励层级和任务领域均保持稳定,证实信号能真正提升单条轨迹的信息价值,而非仅对明显失败案例的过采样。这些结果表明,轻量级信号可作为智能体系统的实用采样基础设施,并为偏好数据构建与部署后优化指明了路径。
形态性状是生物体的物理特征,能为理解生物与环境间的相互作用提供关键线索。然而,当前提取这些性状的过程仍依赖于缓慢的人工专家操作,限制了其在大规模生态研究中的应用。主要瓶颈在于缺乏将生物图像与性状级标注相关联的高质量数据集。本研究证明,基于基础模型特征训练的稀疏自编码器能够产生单义性、空间定位的神经元,这些神经元能持续在具有形态学意义的部位激活。利用这一特性,我们开发了性状标注流程:先定位显著区域,再通过视觉语言提示生成可解释的性状描述。基于该方法,我们构建了Bioscan-Traits数据集,包含来自BIOSCAN-5M的1.9万张昆虫图像的8万项性状标注。人工评估证实了生成形态描述的生物学合理性。我们通过系统消融实验评估设计敏感性,对关键设计选择进行参数化调整并量化其对性状描述质量的影响。这种模块化标注流程替代了成本高昂的人工标注,为基础模型注入生物语义监督提供了可扩展方案,既支持大规模形态分析,也在生态关联性与机器学习实用性之间架设了桥梁。
语言模型能够回答许多以实体为核心的事实性问题,但其内部机制尚不明确。我们通过多个语言模型对此展开研究:首先使用针对各实体的模板化提示定位具有实体选择性的MLP神经元,随后基于PopQA问答样本进行因果干预验证。在从PopQA选取的200个实体数据集中,定位到的神经元集中分布于模型浅层。负向消融会引发实体特异性遗忘,而在占位符处进行受控注入后,相较于均值实体与错误单元对照组,答案检索效果显著提升。对于多数实体,一旦上下文初始化,仅需激活单个定位神经元即可恢复实体一致性预测,这符合紧凑型实体检索机制而非纯粹的逐层渐进式信息积累。模型对别名、缩写、拼写错误及多语言形式的鲁棒性支持了实体规范化解释。该效应显著但非普适:并非所有实体都存在可靠的单神经元操控点,且热门实体的覆盖率更高。总体而言,这些研究结果为分析和调控实体关联的事实性行为提供了稀疏、可因果干预的切入点。
视频世界模型在交互式仿真与娱乐领域展现出巨大潜力,但现有系统仍面临两大交互性挑战:用户对环境可控性以实现可复现、可编辑的体验,以及支持多玩家对共享世界施加影响的协同推理。为突破这些局限,我们在系统中引入了显式外部记忆机制——一种独立于模型上下文窗口的持久化状态,该状态通过用户行为持续更新并在生成推演过程中被实时查询。与传统扩散式游戏引擎采用下一帧预测的模式不同,我们的方法将生成过程解构为记忆、观测与动态三大模块。这一设计通过可编辑的记忆表征赋予用户对环境结构的直接控制权,并能自然扩展至实时多玩家推演场景,确保视角连贯性与跨玩家交互的一致性。
语音识别是多语言及低资源语音处理任务的关键技术,但鲁棒性表现始终难以实现。高性能的英语导向模型难以跨语言泛化,而多语言模型又未能充分利用预训练表征。目前学界对数据规模、模型架构和训练目标如何影响多语言语音识别仍不明确。我们提出PhoneticXEUS模型——通过大规模多语言数据训练,在多语言识别(17.7%音素错误率)和带口音英语语音识别(10.6%音素错误率)上均达到业界最优水平。通过统一评估框架下对100多种语言进行受控消融实验,我们实证确立了训练方案,并量化了自监督学习表征、数据规模和损失函数的影响。此外,我们还分析了跨语系、带口音语音及发音特征的错误模式。所有数据与代码均已开源。
我们提出Brainstacks——一种面向大语言模型持续多领域微调的模块化架构,该架构将领域专业知识封装为冻结的适配器堆栈,在推理时以叠加组合方式作用于共享的冻结基座模型。其包含五个核心组件:(1)采用QLoRA 4比特量化与rsLoRA缩放的MoE-LoRA,通过Shazeer式带噪声的Top-2路由机制覆盖全部七个Transformer投影层;(2)内部循环通过冻结已训练堆栈并叠加新堆栈实现残差提升;(3)外部循环按课程依赖顺序训练序列化领域专用堆栈;(4)基于随机SVD的零空间投影技术将新堆栈约束至与既往方向正交的子空间,实现完全隔离下的零遗忘;(5)基于经验发现的领域组合目标训练出的Sigmoid元路由器,可选择性加权堆栈以实现跨领域组合。两项边界实验:(6)在随机初始化模型上进行PSN预训练;(7)逐领域强化学习(DPO/GRPO)验证与SFT后对齐技术的兼容性。在TinyLlama-1.1B(4领域9堆栈)和Gemma 3 12B IT(5领域10堆栈)上的验证表明:MoE-LoRA收敛速度比参数量匹配的单LoRA快2.5倍,残差提升突破单堆栈性能天花板,路由系统可恢复因无门控堆栈累积而受损的生成质量。核心发现:基于结果的路由器揭示领域堆栈编码的是可迁移的认知基元(指令遵循清晰度、数值推理、程序逻辑、思维链结构)而非领域特定知识——医疗提示词在97%情况下被路由至聊天+数学堆栈,尽管这些堆栈未包含任何医疗数据。