每日精选AI研究论文及翻译
现有深度估计方法本质上受限于在离散图像网格上预测深度。此类表示形式限制了其向任意输出分辨率的扩展能力,并阻碍了几何细节的恢复。本文提出InfiniDepth方法,将深度表示为神经隐式场。通过一种简单而有效的局部隐式解码器,我们可以在连续二维坐标上查询深度,实现任意分辨率与细粒度的深度估计。为更好评估本方法性能,我们从五款不同游戏中精心构建了高质量的4K合成基准数据集,涵盖具有丰富几何与外观细节的多样化场景。大量实验表明,InfiniDepth在相对深度估计和度量深度估计任务中,于合成与真实场景基准测试上均达到最先进性能,尤其在精细细节区域表现卓越。该方法还能显著提升大视角变化下的新视角合成任务效果,生成孔洞更少、伪影更少的高质量结果。
说话人归属时间戳转录(SATS)旨在实现语音内容转写并精确定位每位发言者的时间节点,这对会议转录场景尤为重要。现有SATS系统鲜少采用端到端架构,且受限于短上下文窗口、弱长程说话人记忆能力以及无法输出时间戳等瓶颈。为突破这些限制,我们提出MOSS Transcribe Diarize——一个统一的多模态大语言模型,以端到端方式联合实现说话人归属与时间戳转录。该模型基于海量真实场景数据训练,具备128k上下文窗口可处理长达90分钟的输入,展现出优异的扩展性和鲁棒泛化能力。在全面评估中,其在多个公开及内部基准测试上均超越当前最先进的商业系统。
当前文生视频扩散模型虽能生成引人入胜的视频序列,却始终处于静默状态——缺失了音频所提供的语义、情感与氛围线索。我们推出LTX-2这一开源基础模型,能以统一方式生成高质量、时序同步的视听内容。该模型采用非对称双流Transformer架构,包含140亿参数的视频流与50亿参数的音频流,通过具有时序位置编码的双向视听交叉注意力层与跨模态AdaLN模块实现共享时间步条件耦合。该架构在保证统一视听模型高效训练与推理的同时,为视频生成分配了比音频生成更高的参数量。我们采用多语言文本编码器以提升提示词理解广度,并引入模态感知的无分类器引导机制(modality-CFG)来增强视听对齐能力与可控性。除生成语音外,LTX-2还能制作与场景角色、环境、风格及情绪相契合的丰富连贯音轨——包含自然的背景音与拟声音效。评估表明,该模型在开源系统中实现了最先进的视听质量与提示词遵循度,同时以远低于专有模型的计算成本与推理时间达到可比拟的效果。所有模型权重与代码均已开源发布。
我们推出SciEvalKit——一个统一的基准评测工具包,旨在跨多科学学科和任务能力评估人工智能模型。与通用评估平台不同,SciEvalKit聚焦科学智能的核心能力,包括科学多模态感知、科学多模态推理、科学多模态理解、科学符号推理、科学代码生成、科学假设生成与科学知识理解。该工具包支持从物理化学到天文学与材料科学的六大科学领域,通过从真实世界领域特定数据集中精选内容,构建起专家级科学基准的基础,确保任务反映真实的科学挑战。该工具包采用灵活可扩展的评估流水线设计,支持跨模型与数据集的批量评估,兼容自定义模型与数据集集成,并提供透明、可复现、可比较的评估结果。通过连接能力导向评估与学科多样性,SciEvalKit为新一代科学基础模型与智能体的基准测试提供了标准化且可定制的基础设施。本工具包已开源并持续维护,以促进AI4Science领域的社区驱动发展与进步。
尽管统一多模态模型(UMMs)在跨模态理解方面取得了显著成就,但其利用内部知识实现高质量生成的能力仍存在明显不足。我们将这种差异形式化为传导性失语现象——模型能准确解读多模态输入,却难以将这种理解转化为忠实可控的合成结果。为此,我们提出UniCorn框架,该框架通过简洁优雅的自改进机制,无需外部数据或教师监督即可实现提升。通过将单一UMM划分为提议者、求解者与评判者三个协作角色,UniCorn借助自我博弈生成高质量交互,并采用认知模式重构将潜在理解蒸馏为显式生成信号。为验证多模态连贯性的修复效果,我们构建了基于文本→图像→文本重建循环的UniCycle基准测试。大量实验表明,UniCorn在六大通用图像生成基准上相较基线模型实现了全面且显著的提升:在TIIF(73.8)、DPG(86.8)、CompBench(88.5)及UniCycle上达到SOTA性能,同时在WISE和OneIG上分别取得+5.0和+6.5的显著增益。这些结果印证了我们的方法在保持强劲理解能力的同时显著提升文本到图像生成质量,证明了全自监督优化框架对于统一多模态智能的可扩展性。
我们推出NitroGen——一个面向通用游戏智能体的视觉-动作基础模型,该模型基于超过1,000款游戏、总计4万小时的游戏录像训练而成。我们融合了三大核心要素:1)通过自动提取公开游戏视频中的玩家动作构建的网络级视频-动作数据集;2)能够衡量跨游戏泛化能力的多游戏基准环境;3)采用大规模行为克隆训练的统一视觉-动作模型。NitroGen在多个领域展现出强大能力,包括3D动作游戏的战斗场景、2D平台游戏的高精度操控,以及程序生成世界的探索任务。该模型能有效迁移至未训练过的游戏,在任务成功率上相比从头训练的模型最高实现52%的相对提升。我们将公开数据集、评估套件和模型权重,以推动通用具身智能体的研究发展。
视觉-语言-动作(VLA)模型通过大规模预训练实现了强大的泛化能力,但实际部署不仅需要广泛通用性,还要求具备专家级的任务执行能力。现有VLA模型的后训练方法通常采用离线、单机器人或任务专用模式,限制了策略在线适应能力与真实交互场景的可扩展学习。我们提出可扩展在线后训练(SOP)系统,支持通用VLA模型在物理世界中直接进行在线、分布式、多任务后训练。SOP通过闭环架构紧密耦合执行与学习:机器人集群持续将策略在线经验与人工干预信号流式传输至中央云学习器,并异步接收更新后的策略。该设计支持即时策略在线修正,通过并行部署扩展经验收集规模,并在适应过程中保持模型通用性。SOP与后训练算法选择无关,我们通过交互式模仿学习(HG-DAgger)和强化学习(RECAP)两种方式实现该系统。在包括布料折叠、箱体组装、商品补货等系列真实世界操作任务中,SOP显著提升了大型预训练VLA模型的性能,同时维持跨任务的统一共享策略。仅需数小时真实世界交互即可实现有效后训练,且性能提升与机器人数量呈近线性增长。这些结果表明,将在线学习与集群部署紧密耦合,对于实现物理世界中通用机器人策略的高效、可靠、可扩展后训练具有关键意义。
视频风格化作为视频生成模型的重要下游任务,目前尚未得到充分探索。其输入风格条件通常包括文本、风格图像和首帧风格化参考。每种条件各具优势:文本描述更灵活,风格图像提供更精确的视觉锚点,而首帧风格化使长视频风格化成为可能。然而现有方法大多局限于单一类型的风格条件,限制了应用范围。此外,高质量数据集的缺失导致风格不一致和时间闪烁问题。为突破这些局限,我们提出DreamStyle——支持(1)文本引导、(2)风格图像引导、(3)首帧引导视频风格化的统一框架,并设计了精心构建的数据处理流程以获取高质量配对视频数据。DreamStyle基于原生图像到视频(I2V)模型,通过采用具有词元特异性上行矩阵的低秩自适应(LoRA)进行训练,有效减少不同条件词元间的混淆。定性与定量评估均表明,DreamStyle能胜任三类视频风格化任务,在风格一致性和视频质量方面优于现有方法。
我们推出MiMo-V2-Flash模型,这是一个采用专家混合架构的模型,拥有3090亿总参数与150亿激活参数,专为快速、强大的推理与智能体能力而设计。该模型采用混合注意力架构,以5:1的混合比例将滑动窗口注意力与全局注意力交错排列,滑动窗口大小为128个标记。模型通过多标记预测技术在27万亿标记上进行预训练,原生支持32k上下文长度并后续扩展至256k。为高效扩展训练后计算,MiMo-V2-Flash引入了创新的多教师策略蒸馏框架:领域专家教师(如通过大规模强化学习训练)提供密集的标记级奖励,使学生模型能精准掌握教师专长。该模型在总参数仅分别为DeepSeek-V3.2和Kimi-K2的1/2与1/3的情况下,仍能媲美这些顶尖开源模型。推理过程中,通过将多标记预测机制改造为推测解码的草稿模型,配合三层多标记预测结构可实现最高3.6的接受长度和2.6倍解码加速。我们开源模型权重与三层多标记预测权重,以促进开放研究与社区协作。
尽管取得了显著进展,多模态大语言模型在视觉数学问题求解方面仍面临挑战。近期研究认识到视觉感知是数学推理的瓶颈,但其解决方案仅限于改进视觉信息的提取与解读。值得注意的是,这些研究都忽略了一个关键问题:提取的视觉线索是否被忠实整合并有效运用于后续推理。受此启发,我们提出CogFlow——一个受认知科学启发的三阶段框架,通过增设知识内化阶段显式模拟人类推理的层次化流程:感知→内化→推理。基于这一流程,我们系统性强化了所有阶段:设计协同视觉奖励机制,在参数空间与语义空间共同提升符号和图表的信息提取能力;引入知识内化奖励模型确保视觉线索与推理过程的忠实融合;提出视觉门控策略优化算法,防止模型产生表面连贯但脱离视觉依据的推理捷径。此外,我们构建了包含12万条高质量感知-推理对齐标注的新数据集MathCog。在主流视觉数学推理基准上的全面实验与分析验证了CogFlow的优越性。
数字孪生作为物理系统的精确数字化表征,已通过人工智能技术的融合从被动仿真工具演变为智能自主实体。本文提出统一四阶段框架,系统化描述人工智能在数字孪生全生命周期中的融合路径,涵盖建模、镜像、干预与自主管理四大阶段。通过整合现有技术与实践,我们提炼出贯穿数字孪生生命周期的人工智能方法论体系:(1)基于物理机理与物理信息的人工智能方法构建实体孪生模型;(2)通过实时同步技术实现物理系统的数字化镜像;(3)借助预测建模、异常检测与优化策略对实体孪生进行干预;(4)利用大语言模型、基础模型与智能体实现自主管理。我们分析了物理建模与数据驱动学习的协同机制,重点阐释了物理系统建模从传统数值求解器向物理信息模型与基础模型的范式转变。进一步探讨生成式人工智能技术(包括大语言模型与生成式世界模型)如何将数字孪生转化为具备推理、交流与创造性场景生成能力的主动式自进化认知系统。通过对医疗保健、航空航天、智能制造、机器人技术、智慧城市等11个应用领域的跨域综述,我们识别出与可扩展性、可解释性及可信度相关的共性挑战,并为负责任的人工智能驱动数字孪生系统指明发展方向。
大型语言模型(LLMs)虽然在复杂数学问题上表现优异,但在计数任务中仍存在系统性局限。这一问题的根源在于Transformer架构的特性——计数操作需跨层执行,而模型深度限制导致较大规模计数任务的精度下降。为解决此问题,我们受人类系统2认知过程启发,提出一种简单的测试时策略:将大型计数任务分解为模型可可靠解决的独立子问题。通过观测性与因果中介分析,我们评估了该策略并探究其内在机制。机理分析表明:潜在计数结果被计算并存储于每个部分的最终项表征中,通过专用注意力头传递至中间步骤,最终在聚合阶段生成总数。实验结果显示,该策略能帮助LLMs突破架构限制,在大规模计数任务中实现高精度。本研究不仅揭示了LLMs中系统2计数行为的机理,更为理解和改进其推理能力提供了可推广的方法论。
我们推出WebGym——迄今为止规模最大的开源视觉网页智能体训练环境。真实网站具有非平稳性和多样性特点,使得人工或小规模任务集难以支撑稳健的策略学习。WebGym包含近30万个任务,基于量规评估体系覆盖多样化真实网站及不同难度层级。我们采用简易强化学习方案训练智能体:通过智能体自身交互轨迹进行训练,并以任务奖励作为学习反馈。为实现强化学习的规模化扩展,我们专门为网页智能体开发了高吞吐量异步轨迹采样系统,使WebGym的轨迹采样速度较原始实现提升4-5倍。其次,通过扩展任务集的广度、深度和规模,我们实现了持续的性能提升。基于Qwen-3-VL-8B-Instruct强大多模态基础模型在WebGym上进行微调后,其在分布外测试集上的成功率从26.2%提升至42.9%,显著优于基于GPT-4o(27.1%)和GPT-5-Thinking(29.8%)等专有模型的智能体。这一提升意义重大,因为我们的测试集仅包含训练阶段从未接触的网站任务,这与多数现有视觉网页智能体训练研究形成鲜明对比。
我们推出Muses——首个基于前馈式范式的免训练奇幻3D生物生成方法。现有方法依赖部件感知优化、人工组装或2D图像生成,由于精细部件级操控的挑战及跨域生成能力有限,常产生不真实或不协调的3D资源。相较之下,Muses利用3D骨架这一生物形态的基础表征,以显式且合理的方式组合多元元素。该骨骼基础将3D内容创作形式化为包含设计、组合与生成的结构化流程。Muses首先通过图约束推理构建具有协调布局与比例的创新性3D骨架,随后在结构化潜空间内引导基于体素的组装过程,整合来自不同对象的区域。最后在骨骼约束下实施图像引导的外观建模,为组装形态生成风格统一且和谐一致的纹理。大量实验表明,Muses在视觉保真度、文本描述对齐度方面达到业界最优水平,并展现出灵活的3D对象编辑潜力。项目页面:https://luhexiao.github.io/Muses.github.io/。
多模态大语言模型(MLLMs)在关键应用中的快速集成正日益受到持续性安全漏洞的阻碍。然而,现有的红队测试基准往往碎片化,局限于单轮文本交互,且缺乏系统化评估所需的可扩展性。为此,我们推出OpenRT——一个统一、模块化、高吞吐的红队测试框架,旨在全面评估MLLM安全性。该框架的核心是通过引入对抗内核实现了自动化红队测试的范式革新,将模型集成、数据管理、攻击策略、评判方法和评估指标五个关键维度进行模块化分离。通过标准化攻击接口,它将对抗逻辑与高吞吐异步运行时解耦,实现了跨多样模型的系统化扩展。我们的框架整合了37种攻击方法,涵盖白盒梯度攻击、多模态扰动及复杂多智能体进化策略。通过对20个先进模型(包括GPT-5.2、Claude 4.5和Gemini 3 Pro)的大规模实证研究,我们揭示了关键安全缺陷:即使前沿模型也未能泛化至所有攻击范式,领先模型的平均攻击成功率高达49.14%。值得注意的是,研究发现推理模型并不天然具备针对复杂多轮越狱的更强鲁棒性。通过开源OpenRT,我们提供了一个可持续、可扩展且持续维护的基础设施,以加速AI安全领域的研发与标准化进程。
首帧传播(FFP)为可控视频编辑提供了前景广阔的新范式,但现有方法受限于对繁琐运行时引导的依赖。我们发现这一局限的根本原因在于当前训练数据集的不足——其往往存在时长过短、分辨率低下且缺乏任务多样性的问题,难以支撑鲁棒时序先验的学习。为填补这一基础性数据空白,我们首先提出FFP-300K数据集,该大规模数据集通过双轨制构建流程生成72万对720p分辨率、81帧长的高保真视频对,涵盖多样化的局部与全局编辑任务。基于此数据集,我们设计出真正无需引导的FFP新框架,有效化解了保持首帧外观与维持源视频运动之间的核心矛盾。在架构层面,我们提出自适应时空旋转位置编码(AST-RoPE),通过动态重映射位置编码实现外观与运动参考的解耦;在目标层面,采用以身份传播任务作为强正则子的自蒸馏策略,确保长期时序稳定性并防止语义漂移。在EditVerseBench基准上的综合实验表明,本方法以约0.2分PickScore和0.3分VLM得分的优势显著超越现有学术及商业模型。
地理定位旨在推断给定信号的地理来源。在计算机视觉领域,地理定位已成为组合推理能力的重要基准,并与公共安全密切相关。相比之下,音频地理定位的发展长期受限于高质量音频-位置配对数据的缺乏。为填补这一空白,我们推出AGL1K——首个面向音频语言模型的音频地理定位基准数据集,覆盖72个国家及地区。为从众包平台筛选具有可靠定位价值的样本,我们提出音频可定位性度量指标,通过量化每条录音的信息丰富度,最终精选出1,444段音频片段。对16个音频语言模型的评估表明,此类模型已显现出音频地理定位能力。研究发现:闭源模型显著优于开源模型;语言线索常作为预测支架占据主导地位。我们进一步分析了音频语言模型的推理路径、区域偏见、错误成因以及可定位性指标的可解释性。总体而言,AGL1K为音频地理定位建立了基准,有望推动音频语言模型发展出更强大的地理空间推理能力。
从稀疏行为序列中捕捉复杂用户偏好始终是序列推荐领域的核心挑战。现有潜在推理方法通过多步推理扩展测试时计算已展现出潜力,但这些方法仅依赖单一轨迹的深度维度扩展,随着推理深度增加会出现收益递减问题。为突破这一局限,我们提出并行潜在推理(PLR)框架,该框架通过同步探索多样化推理轨迹,首次实现了宽度维度的计算扩展。PLR在连续潜在空间中通过可学习的触发令牌构建并行推理流,通过全局推理正则化保持多流多样性,并采用混合推理流聚合机制自适应融合多流输出。在三个真实场景数据集上的大量实验表明,PLR在保持实时推理效率的同时显著超越现有最优基线。理论分析进一步验证了并行推理对提升泛化能力的有效性。本研究为突破现有深度扩展范式、增强序列推荐系统的推理能力开辟了新路径。
尽管高保真图像合成已取得显著进展,生成模型在遵循逻辑密集型指令时仍存在困难,暴露出持久的推理-执行鸿沟。与此同时,闭源系统(如Nano Banana)已展现出强大的推理驱动图像生成能力,凸显出当前开源模型的明显差距。我们认为弥合这一差距不仅需要更优的视觉生成器,更需要可执行推理:将高层意图分解为可直接引导生成过程的、可验证的具象化方案。为此,我们提出通用思维器——一种面向通用图像生成的任务无关推理架构,其设计为可接入多样化生成器与工作流的统一规划核心。该架构将专用思维器与图像生成器解耦,实现无需重训整个生成模型的模块化推理升级。我们进一步引入两阶段训练范式:先为思维器构建结构化规划接口,再通过强化学习将其策略锚定于像素级反馈,促使规划方案更注重视觉正确性而非文本合理性。在文本到图像生成和图像编辑上的大量实验表明,通用思维器显著提升了图像推理与生成质量。
大型推理模型在数学推理任务上表现出色,这通常归因于其生成显性思维链解释的能力。然而最新研究表明,模型往往在完成文本推理步骤前就已得出正确答案,表明存在潜在推理——即隐藏状态中编码的内部非语言计算。虽然该现象在英语领域已有探索,但其多语言特性仍属未知。本文通过截断策略对11种语言的多语言潜在推理进行系统研究,通过观察模型仅获得部分推理痕迹时正确答案的浮现过程,实现了对潜在预测形成的逐步骤测量。研究结果清晰揭示了多语言潜在推理的存在,但呈现不均衡性:资源丰富语言表现强劲,低资源语言较弱,且在难度更高的基准测试中普遍难以观测。为探究这些差异是否反映不同的内部机制,我们进一步进行了表征分析。尽管存在表层差异,但预测的内部演化在跨语言间高度一致,且与英语模式基本吻合——这一规律暗示着存在以英语为中心的潜在推理路径。
检测未知深度伪造操作仍是人脸伪造检测领域最具挑战性的难题之一。当前主流方法因过度依赖现有深度伪造或伪伪造数据的监督训练,导致对特定伪造模式过拟合,难以泛化至未知伪造类型。相比之下,自监督方法虽具备更强泛化潜力,但现有研究仅通过自监督难以学习判别性表征。本文提出ExposeAnyone——一种基于扩散模型的完全自监督方法,通过音频生成表情序列。其核心思想是:当模型通过参考集完成对特定对象的个性化适配后,可通过扩散重建误差计算可疑视频与个性化对象之间的身份距离,从而实现重点人物人脸伪造检测。大量实验表明:1)在DF-TIMIT、DFDCP、KoDF和IDForge数据集上,本方法平均AUC较之前最优方法提升4.22个百分点;2)本模型能有效检测Sora2生成视频(现有方法对此类视频检测效果不佳);3)本方法对模糊、压缩等干扰具有强鲁棒性,凸显了其在现实场景人脸伪造检测中的适用性。
我们推出AceFF——一种专为小分子药物发现优化的预训练机器学习原子间势能(MLIP)。虽然MLIP已成为密度泛函理论(DFT)的高效替代方案,但其在不同化学空间中的泛化能力仍具挑战。AceFF通过基于类药物化合物综合数据集优化的TensorNet2架构解决这一问题,实现了高通量推理速度与DFT级别精度的平衡。该力场完整支持必需药物化学元素(H、B、C、N、O、F、Si、P、S、Cl、Br、I),并经过专门训练以处理带电状态。通过复杂扭转能扫描、分子动力学轨迹、批量最小化以及力与能量精度等严格基准验证表明,AceFF为有机分子建立了新的性能标杆。AceFF-2模型权重与推理代码已发布于https://huggingface.co/Acellera/AceFF-2.0。
图像去雾是计算机视觉领域的关键挑战,对提升雾霾条件下图像清晰度至关重要。传统方法多依赖于大气散射模型,而近期深度学习技术——特别是卷积神经网络(CNN)和Transformer——通过有效分析图像特征提升了去雾性能。然而CNN难以捕捉长程依赖关系,Transformer则需大量计算资源。为突破这些局限,我们提出DehazeSNN这一创新架构,将类U-Net设计与脉冲神经网络(SNN)相融合。该模型能捕获多尺度图像特征,同时高效处理局部与长程依赖关系。我们引入的正交漏积分发放电模块(OLIFBlock)增强了跨通道通信能力,在降低计算负担的同时实现了卓越的去雾性能。大量实验表明,DehazeSNN在基准数据集上与国际领先方法相比具有显著竞争力,能以更小的模型规模和更少的乘加运算量生成高质量无雾图像。本去雾方法已开源於:https://github.com/HaoranLiu507/DehazeSNN。
社交媒体仇恨言论检测在准确性和可解释性方面面临挑战,尤其对于研究不足的印度语言。我们提出了一种新颖的可解释性引导训练框架X-MuTeST(可解释多语言仇恨言论检测),通过结合大语言模型的高层语义推理与传统注意力增强技术,实现仇恨言论检测。我们将研究扩展至印地语和泰卢固语,同时为英语提供基准级人工标注的词级归因依据以证明类别标签的合理性。X-MuTeST可解释性方法通过计算原始文本与单/双/三元语法单元预测概率的差异生成解释,最终解释结果取大语言模型解释与本方法的并集。实验表明,训练过程中引入人工标注依据能同步提升分类性能与可解释性。进一步将人工依据与本方法结合以优化模型注意力机制,可取得更显著改进。我们使用合理性指标(如Token-F1和IOU-F1)与忠实度指标(如覆盖度与充分度)评估可解释性。通过聚焦资源稀缺语言,本研究推动了跨语言环境的仇恨言论检测发展。数据集包含6,004条印地语、4,492条泰卢固语和6,334条英语样本的词级归因标注,数据与代码详见https://github.com/ziarehman30/X-MuTeST。
我们研究了AI系统的两大属性:能力(系统能执行的任务范畴)与可操控性(行为向预期目标可靠转移的程度)。核心问题在于能力提升是否会削弱可操控性并引发控制崩溃风险。我们进一步区分了授权可操控性(开发者可靠实现预期行为)与非授权可操控性(攻击者诱导出违规行为)。这种区分揭示了AI模型面临的基本安全-安防矛盾:安全需要高可操控性以实施控制(如停止/拒绝机制),而安防则需要降低恶意行为者诱导有害行为的可操控性。这种张力对开源权重模型构成重大挑战,当前这类模型通过微调或对抗攻击等常见技术表现出高可操控性。基于Qwen3与InstrumentalEval的测试发现,简短的反工具性提示后缀能显著降低测量收敛率(如规避关机、自我复制等场景)。以Qwen3-30B Instruct模型为例,其收敛率从支持工具性后缀下的81.69%骤降至反工具性后缀下的2.82%。在反工具性提示下,大型对齐模型比小型模型表现出更低收敛率(Instruct版:2.82% vs 4.23%;Thinking版:4.23% vs 9.86%)。代码详见github.com/j-hoscilowicz/instrumental_steering。