每日精选AI研究论文及翻译
近期,以超连接(HC)为代表的研究通过扩展残差流宽度并多样化连接模式,拓展了过去十年间建立的普适性残差连接范式。尽管这种多样化带来了显著的性能提升,但它从根本上损害了残差连接固有的恒等映射特性,导致严重的训练不稳定性与受限的可扩展性,同时还产生了显著的内存访问开销。为解决这些挑战,我们提出流形约束超连接(mHC)——该通用框架将HC的残差连接空间投影至特定流形以恢复恒等映射特性,同时结合严格的基础设施优化以确保效率。实证研究表明,mHC能有效支持大规模训练,提供切实的性能提升与卓越的可扩展性。我们预期mHC作为HC的灵活实用扩展,将有助于深化对拓扑架构设计的理解,并为基础模型的演进指明有前景的方向。
我们推出Youtu-LLM——一款轻量而强大的语言模型,在实现高计算效率的同时兼具原生智能体能力。与依赖知识蒸馏的典型小模型不同,Youtu-LLM(1.96B)通过从头预训练系统化培育推理与规划能力。其核心技术突破包括:(1)支持长上下文的紧凑架构:基于稠密多潜注意力架构与新颖的STEM导向词表,模型支持128k上下文窗口。该设计以极小内存占用实现稳健的长程推理与状态追踪,尤其适合长周期智能体与推理任务。(2)分阶段的"常识-STEM-智能体"课程训练:我们构建了约11T token的大规模语料库,实施多阶段训练策略。通过将预训练数据分布从通用常识逐步过渡至复杂STEM与智能体任务,确保模型获得深层认知能力而非表面对齐。(3)可扩展的智能体中期训练:针对智能体中期训练,我们采用多样化数据构建方案,在数学、编程及工具使用领域合成丰富轨迹。高质量数据使模型能有效内化规划与反思能力。大量实验表明,Youtu-LLM在2B参数量以下模型中刷新性能纪录:在通用基准测试中与更大模型表现相当,在智能体专项任务上显著超越现有SOTA基线,证明轻量模型亦可具备强大的内生智能体能力。
智能体构建要求大语言模型在现实环境中通过多轮操作执行动作、观察结果并迭代优化产物。尽管其重要性日益凸显,开源社区仍缺乏一套规范化的端到端生态系统来简化智能体开发。我们推出智能体学习生态系统(ALE),这一基础架构可优化智能体大语言模型的生产流程。ALE包含三大核心组件:权重优化后训练框架ROLL、用于轨迹生成的沙箱环境管理器ROCK,以及高效上下文工程智能体框架iFlow CLI。我们同步开源基于ALE构建的智能体模型ROME(ROME显然是智能体模型),该模型基于超百万条轨迹训练而成。我们的方法包含合成复杂行为的数据组合协议,以及创新性策略优化算法——基于交互的策略对齐(IPA),该算法通过语义交互块而非单个令牌进行信用分配,从而提升长周期训练的稳定性。实证研究中,我们在结构化场景下评估ROME,并推出具有更优规模与污染控制能力的基准测试Terminal Bench Pro。ROME在SWE-bench Verified和Terminal Bench等基准测试中表现优异,证明了ALE基础设施的有效性。
日志异常检测对于维护操作系统安全至关重要。根据日志数据采集来源的不同,日志中记录的各种信息可视为不同的日志模态。基于这一认知,单模态方法往往因忽略日志数据的多模态特性而存在局限,而多模态方法又难以处理不同模态间的交互关系。受多模态情感分析的启发,我们提出CoLog框架,通过协同编码多种日志模态来实现异常检测。该框架采用协作式变换器和多头强化注意力机制学习多模态间的交互关系,确保异常检测的全面性。为处理模态交互导致的异质性,CoLog引入模态自适应层来适配不同日志模态的表征。这种方法使CoLog能够学习数据中细粒度的模式与依赖关系,从而提升异常检测能力。大量实验表明,CoLog在七项基准数据集上的综合检测性能优于现有最优方法,在点异常和集体异常检测中平均精确率达到99.63%,平均召回率99.59%,平均F1分数99.61%。CoLog全面的检测能力使其特别适用于网络安全、系统监控和运维效率提升场景。该框架通过统一架构为点异常和集体异常检测提供了先进的解决方案,有效应对自动日志数据分析面临的复杂挑战。CoLog实现代码已发布于https://github.com/NasirzadehMoh/CoLog。
近期三维重建技术虽在多视图密集图像的高质量场景采集方面取得显著进展,但在输入视角有限时仍面临挑战。为应对此问题,研究者已采用包括正则化技术、语义先验和几何约束在内的多种方法。最新的基于扩散模型的方法通过从新相机位姿生成新颖视角以增强训练数据,展现出超越早期正则化与先验技术的显著改进。然而尽管取得进展,我们发现现有先进方法存在三个关键局限:已知视角外围的覆盖范围不足、生成视角间的几何不一致性以及计算密集型流程。我们提出GaMO(几何感知多视图外绘框架),通过多视图外绘重构稀疏视图重建范式。与生成新视点不同,GaMO从现有相机位姿扩展视野范围,在提供更广场景覆盖的同时天然保持几何一致性。我们的方法以零样本方式采用多视图条件化与几何感知去噪策略,无需训练。在Replica和ScanNet++上的大量实验表明,该方法在3、6、9个输入视角下均实现最先进的重建质量,在PSNR和LPIPS指标上超越先前方法,同时较基于扩散的SOTA方法实现25倍加速,处理时间低于10分钟。项目页面:https://yichuanh.github.io/GaMO/
记忆作为连接过去与未来的关键枢纽,为人类和人工智能系统提供了应对复杂任务所需的宝贵概念与经验。当前自主智能体研究日益重视借鉴认知神经科学来设计高效记忆工作流,但受限于学科壁垒,现有研究难以真正吸收人类记忆机制的精髓。为弥合这一鸿沟,我们系统整合了跨学科记忆知识,将认知神经科学的洞见与基于大语言模型的智能体相衔接。具体而言,我们首先沿着从认知神经科学到大语言模型再到智能体的递进脉络,阐释记忆的定义与功能;继而从生物与人工双重视角对记忆分类体系、存储机制及完整管理生命周期展开对比分析;随后梳理评估智能体记忆的主流基准测试;此外还从攻击与防御双重维度探讨记忆安全性;最后展望以多模态记忆系统和技能习得为重点的未来研究方向。
视觉-语言-动作模型已实现语言条件化的长周期机器人操控,但现有系统大多局限于夹爪式机械手。由于动作空间扩展、频繁的手物遮挡以及真实机器人数据采集成本等问题,将VLA策略扩展到具有高自由度的双手灵巧手机器人仍面临挑战。我们提出GR-Dexter——一个面向双手灵巧手机器人的VLA通用操控整体框架,集成了紧凑型21自由度机械手设计、直观的双手遥操作系统用于真实机器人数据采集,以及融合遥操作轨迹与大规模视觉语言数据及精选跨本体数据集的训练方案。在涵盖长周期日常操作和泛化性抓放任务的真实环境测试中,GR-Dexter在领域内表现出色,并对未见过的物体和指令展现出更强的鲁棒性。我们期待GR-Dexter能成为通向通用灵巧手机器人操控的实践性一步。
近期,文本到视频(T2V)生成技术虽在视觉质量上取得显著进展,但生成严格遵循物理规律的真实视频仍面临挑战。现有方法主要基于图形学或提示扩展技术,难以在简单模拟环境之外实现泛化,或无法有效学习隐式物理推理。同时,富含物理交互现象的训练数据稀缺也是关键瓶颈。本文首次提出物理增强视频数据构建流程PhyAugPipe,通过融合视觉语言模型(VLM)的思维链推理,构建了大规模训练数据集PhyVidGen-135K。在此基础上,我们建立了基于物理感知的分组直接偏好优化框架PhyGDPO,该框架以分组Plackett-Luce概率模型为基础,可捕捉超越成对比较的整体偏好关系。在PhyGDPO中,我们设计了物理引导奖励(PGR)机制,通过嵌入基于VLM的物理奖励函数引导优化过程朝向物理一致性发展。同时提出LoRA切换参考(LoRA-SR)方案,通过消除内存密集的参考模型复制实现高效训练。实验表明,我们的方法在PhyGenBench和VideoPhy2基准上显著优于当前最优开源方法。更多视频结果请访问项目页面https://caiyuanhao1998.github.io/project/PhyGDPO。代码、模型及数据将在https://github.com/caiyuanhao1998/Open-PhyGDPO发布。
本文提出JavisGPT——首个面向音视频联合理解与生成任务的多模态大语言模型。该模型采用简洁的编码器-LLM-解码器架构,通过同步融合模块实现时空音视频特征融合,并利用同步感知可学习查询桥接预训练的音视频扩散Transformer生成器,从而基于多模态指令实现时序一致的多模态理解与生成。我们设计了三阶段训练流程:多模态预训练、音视频微调与大规模指令调优,逐步增强现有视觉语言模型的多模态能力。为支撑训练,我们构建了包含20万条GPT-4o标注音视频文本对话的高质量指令集JavisInst-Omni,涵盖多样化、多层级的理解与生成场景。在音视频理解与生成基准测试中,JavisGPT显著优于现有多模态大模型,尤其在复杂时序同步任务中表现突出。
我们提出PFP神经网络结构,该结构能够将长视频压缩为短上下文,其显式预训练目标是在任意时间点保留单帧图像的高频细节。基准模型可将20秒视频压缩至约5k长度的上下文,在此过程中随机帧的视觉外观能够被感知完整地检索还原。此类预训练模型可直接微调为自回归视频模型的记忆编码器,实现以较低上下文成本存储长时程记忆,并保持相对较低的保真度损失。我们通过消融实验评估该框架,并探讨不同神经网络架构设计中的权衡关系。
高风险决策涉及对未来不确定性的推理。本研究致力于训练语言模型对开放式预测问题做出预判。为扩大训练数据规模,我们基于每日新闻中的全球事件报道,采用全自动化的精细筛选方案,合成了新颖的预测问题。我们在自建数据集OpenForesight上对Qwen3思维模型进行训练。为防止训练和评估过程中未来信息泄露,我们使用离线新闻语料库进行数据生成和预测系统的信息检索。通过小型验证集的指导,我们证明了检索技术以及改进的强化学习奖励函数的优势。最终预测系统构建完成后,我们在2025年5月至8月期间进行了封闭测试。专业模型OpenForecaster 8B的表现与规模更大的专有模型相当,其训练过程显著提升了预测的准确性、校准度和一致性。研究发现,预测训练带来的校准改进可泛化至多个主流基准测试。我们已将全部模型、代码和数据集开源,以推动语言模型预测研究的广泛普及。
尽管近期大语言模型(LLM)的推理能力不断增强,但其在推理过程中的内部机制仍待深入探索。现有方法通常依赖人工定义的概念(如过度思考、反思),在词汇层面以监督方式分析推理行为。然而这类方法存在局限,因为难以全面捕捉潜在的推理行为谱系,其中许多行为无法在词元空间中明确定义。本文提出一种无监督框架(命名为RISE:基于稀疏自编码器的推理行为可解释性方法),用于发现推理向量——即激活空间中编码不同推理行为的特定方向。通过将思维链轨迹分割为句子级"步骤",并在步骤级激活上训练稀疏自编码器(SAE),我们分离出对应可解释行为(如反思与回溯)的特征。可视化与聚类分析表明,这些行为在解码器列空间中占据可分离区域。进一步地,对SAE衍生向量进行定向干预,可可控地增强或抑制特定推理行为,无需重新训练即可改变推理轨迹。除行为特异性解耦外,SAE还能捕获结构特性(如响应长度),呈现长短推理轨迹的聚类分布。更有趣的是,SAE能够发现超越人类监督的新行为。我们通过识别SAE解码器空间中的置信相关向量,展示了调控响应置信度的能力。这些发现印证了无监督潜在发现方法在解释和可控引导LLM推理方面的潜力。
我们提出SpaceTimePilot——一种通过解耦时空维度实现可控生成式渲染的视频扩散模型。给定单目视频输入,该模型可在生成过程中独立调整摄像机视点和运动序列,实现跨时空连续自由探索的场景重渲染。为实现这一目标,我们在扩散过程中引入了高效的动画时间嵌入机制,从而实现对输出视频相对于源视频运动序列的显式控制。由于现有数据集无法提供具有连续时序变化的同一动态场景配对视频,我们提出了一种简洁有效的时序扭曲训练方案,通过重构现有多视角数据集来模拟时序差异。该策略有效指导模型学习时序控制,实现稳健的时空解耦。为提升双控精度,我们进一步引入两项创新:改进的摄像机条件机制支持从首帧开始调整视角,以及首个合成时空全覆盖渲染数据集CamxTime——提供场景内完全自由的时空视频轨迹。结合时序扭曲方案与CamxTime数据集的联合训练,使模型获得更精确的时序控制能力。我们在真实场景与合成数据上验证了SpaceTimePilot的性能,相较于现有方法,该模型展现出清晰的时空解耦特性和卓越的生成效果。项目页面:https://zheninghuang.github.io/Space-Time-Pilot/ 代码库:https://github.com/ZheningHuang/spacetimepilot
扩散模型展现出强大的(条件)数据分布捕捉能力。然而,由于缺乏足够训练数据和低概率区域覆盖能力,模型在生成这些区域对应的高质量图像时会受到惩罚。为提升生成质量,分类器无引导(CFG)等策略可在采样阶段将样本导向高概率区域,但标准CFG常导致样本过度简化或失真。另一类通过劣化版本引导扩散模型的方法,则受限于精心设计的退化策略、额外训练和附加采样步骤。本文提出简单有效的内部引导(IG)策略,通过在训练阶段引入中间层辅助监督,并在采样阶段外推中间层与深层输出来获得生成结果。该策略在多种基线模型上显著提升了训练效率和生成质量:在ImageNet 256×256数据集上,SiT-XL/2+IG在80和800轮训练时分别达到FID=5.31和FID=1.75;更令人瞩目的是,LightningDiT-XL/1+IG实现FID=1.34,大幅领先现有方法。结合CFG后,LightningDiT-XL/1+IG更以1.19的FID刷新当前最优纪录。
随着自动驾驶汽车和无人机等自主系统的快速发展,从多模态车载传感器数据中构建真正空间智能的需求日益迫切。尽管基础模型在单一模态场景中表现出色,但如何整合摄像头与激光雷达等异构传感器的能力以形成统一感知仍面临严峻挑战。本文提出一种多模态预训练综合框架,系统梳理了推动该领域进展的核心技术体系。我们深入剖析基础传感器特性与学习策略间的相互作用,评估平台专用数据集对技术发展的支撑作用。核心贡献在于构建了预训练范式的统一分类体系:从单模态基线方法到学习三维目标检测、语义占据预测等高级任务整体表征的融合框架。此外,我们探索文本输入与占据表征的融合机制以支持开放世界感知与规划。最后,针对计算效率与模型可扩展性等关键瓶颈,提出了实现具备稳健空间智能的通用多模态基础模型的技术路线图。
呼吸音分类研究受限于ICBHI 2017等基准数据集规模有限、噪声水平高及类别严重不平衡的问题。虽然基于Transformer的模型具备强大的特征提取能力,但在处理此类受限医疗数据时容易过拟合,且常收敛至损失空间的尖锐极小值。为此,我们提出一种结合锐度感知最小化(SAM)的音频频谱Transformer(AST)增强框架。该方法不仅最小化训练损失,更通过优化损失曲面几何形态,引导模型朝向泛化能力更强的平坦极小值收敛。同时采用加权采样策略以有效应对类别不平衡问题。在ICBHI 2017数据集上,我们的方法以68.10%的综合评分达到当前最优水平,超越了现有CNN及混合基线模型。更重要的是,其敏感度达到68.31%,这对可靠临床筛查至关重要。通过t-SNE降维和注意力图谱的进一步分析证实,该模型学习到的是鲁棒且判别性强的特征,而非对背景噪声的机械记忆。
复杂推理问题常涉及文本中未明确编码的隐含空间、几何与结构关系。尽管当前推理模型已在多领域取得优异表现,但纯文本推理在复杂场景中难以呈现全局结构约束。本文提出FIGR模型,通过端到端强化学习将主动视觉思维融入多轮推理过程。FIGR通过在解题过程中构建可视化表征,将中间结构假设外显化。通过自适应调控视觉推理的触发时机与方式,该模型能对纯文本难以捕捉的全局结构特性实现更稳定、连贯的推理。在具有挑战性的数学推理基准测试中,FIGR显著优于强文本链式思维基线模型,尤其在AIME 2025和BeyondAIME数据集上分别提升基础模型性能13.12%和11.00%,印证了图示引导多模态推理在增强复杂推理稳定性与可靠性方面的有效性。
近期视频语言模型在视频理解方面展现出巨大潜力,但在事件级感知的精确时序定位上仍存在困难。我们发现视频理解中的两个核心要素(即时序定位与文本响应)存在逻辑层次关系:准确的时序证据定位是生成可靠文本响应的基础。然而现有研究通常以耦合方式处理这两个任务,缺乏清晰的逻辑结构,导致目标函数未能达到最优。对此我们提出因子化学习视角:首先设计D²VLM框架,在解耦双任务学习的同时强调其内在依赖关系。通过采用"先定位后证据引用作答"范式,引入证据标记进行证据定位,该设计超越现有工作对时间戳表示的关注,着重强化事件级视觉语义捕获能力。为促进双任务学习,我们进一步提出新型因子化偏好优化算法(FPO)。与标准偏好优化不同,FPO将概率化时序定位建模显式融入优化目标,实现时序定位与文本响应的联合偏好学习。针对现有数据集缺乏显式时序标注的问题,我们还构建了适用于因子化偏好学习的合成数据集。多任务实验结果表明该方法具有明显优势。项目代码已开源:https://github.com/nusnlp/d2vlm。
战略对话要求智能体执行不同的对话行为,信念估计对此至关重要。虽然现有研究能实现较准确的信念估计,但缺乏在生成过程中运用这些信念的规范机制。我们通过以下方式填补这一空白:首先将对抗性和协调性这两类核心行为形式化,进而通过对智能体生成内容施加概率约束来实现操作化。基于此思路,我们构建了BEDA框架,该框架包含世界状态集合、负责信念估计的信念估计器,以及根据推断信念选择行为并生成一致性话语的条件生成器。在条件型守护者-窃贼(CKBG,对抗性)、共同好友(MF,合作性)和卡西诺(协商性)三类场景中,BEDA均持续超越强基线模型:在CKBG任务中,不同骨干模型上的成功率提升至少5.0个百分点,使用GPT-4.1-nano时提升达20.6个百分点;在共同好友任务中平均提升9.3个百分点;在卡西诺任务中达成了相对于所有基线模型的最优协商方案。这些结果表明,将信念估计转化为约束条件,为可靠的战略对话提供了一种简洁通用的实现机制。
现代人工智能系统依赖基于浮点运算存储和检索的向量嵌入。虽然这种设计能有效实现近似相似性搜索,但其本质引入了非确定性:即使模型、输入数据和代码完全相同,在不同硬件架构(如x86与ARM)上也会产生不同的内存状态和检索结果。这导致系统无法实现状态复现与安全部署,引发难以察觉的数据偏差,使得受监管领域的事后验证与审计追踪难以进行。我们提出Valori——一种确定性AI内存基座,通过定点运算(Q16.16格式)替代浮点内存操作,并将内存建模为可复现状态机。Valori能确保跨平台的比特级一致内存状态、快照及搜索结果。我们论证了非确定性在索引或检索操作之前就已产生,并展示Valori如何在内存边界实施确定性保障。研究结果表明,确定性内存是构建可信AI系统的必要基础组件。该参考实现已开源(项目地址:https://github.com/varshith-Git/Valori-Kernel,归档于https://zenodo.org/records/18022660)。