每日精选AI研究论文及翻译
我们推出了一套全栈框架,通过强化学习技术,将视觉语言模型(VLMs)的推理能力扩展至长视频领域。针对长视频推理的独特挑战,该框架整合了三大关键组件:(1)大规模数据集LongVideo-Reason,包含52,000对长视频问答,覆盖体育、游戏、vlog等多个领域,并配有高质量推理标注;(2)两阶段训练流程,首先通过链式思维监督微调(CoT-SFT)扩展VLMs,随后应用强化学习(RL)进行优化;(3)专为长视频RL设计的训练基础设施——多模态强化序列并行(MR-SP),它结合了序列并行技术与基于vLLM的引擎,利用缓存视频嵌入实现高效的rollout和预填充,特别适配长视频处理。实验表明,LongVILA-R1-7B在VideoMME等长视频问答基准测试中表现优异,不仅在时间推理、目标与意图推理、空间推理及情节推理上超越Video-R1-7B,甚至在LongVideo-Reason-eval基准上与Gemini-1.5-Pro旗鼓相当。特别值得一提的是,MR-SP系统在长视频RL训练中实现了最高2.1倍的加速。随着输入视频帧数的增加,LongVILA-R1展现出持续的性能提升,标志着VLMs在长视频推理领域迈出了坚实的一步。此外,我们公开了训练系统,支持多种模态(视频、文本、音频)、多种模型(VILA和Qwen系列)乃至图像与视频生成模型的RL训练。在单节点A100(8 GPU)配置下,该系统能够支持长达一小时视频(例如3,600帧/约256k tokens)的RL训练。
尽管扩散模型微调为定制预训练模型以生成特定对象提供了强大手段,但在训练样本有限时,常出现过拟合问题,这不仅削弱了模型的泛化能力,还影响了输出多样性。本文聚焦于最具挑战性且影响深远的任务——仅用单张概念图像来适配扩散模型,因为单图定制在实际应用中潜力最大。我们提出了T-LoRA,一种时间步依赖的低秩适应框架,专为扩散模型个性化设计。研究表明,较高扩散时间步比低时间步更易过拟合,因此需要一种对时间步敏感的微调策略。T-LoRA包含两大创新:(1) 一种动态微调策略,根据扩散时间步调整秩约束更新;(2) 一种权重参数化技术,通过正交初始化确保适配器组件间的独立性。大量实验证明,T-LoRA及其各组件均优于标准LoRA及其他扩散模型个性化技术,在概念保真度与文本对齐间实现了更优平衡,凸显了T-LoRA在数据有限和资源受限场景下的潜力。代码已发布于https://github.com/ControlGenAI/T-LoRA。
诸如OpenAI-o3等模型通过动态引用视觉区域,开创了视觉基础推理的新领域,正如人类“用图像思考”一样。然而,目前尚缺乏全面评估这些能力的基准。为填补这一空白,我们提出了TreeBench(可追踪证据评估基准),这一诊断性基准建立在三大原则之上:(1) 在复杂场景中对细微目标的专注视觉感知,(2) 通过边界框评估实现可追踪的证据,(3) 二阶推理以测试超越简单物体定位的对象交互与空间层次关系。我们优先选择包含密集物体的图像,最初从SA-1B中采样了1,000张高质量图片,并邀请八位LMM专家手动为每张图片标注问题、候选选项及答案。经过三重质量控制阶段,TreeBench最终包含405对极具挑战性的视觉问答对,即便是最先进的模型也在此基准上表现不佳,无一达到60%的准确率,例如OpenAI-o3仅得54.87分。此外,我们引入了TreeVGR(可追踪证据增强的视觉基础推理),一种结合强化学习共同监督定位与推理的训练范式,旨在实现精准定位与可解释的推理路径。基于Qwen2.5-VL-7B初始化,该范式在V* Bench(+16.8)、MME-RealWorld(+12.6)及TreeBench(+13.4)上均取得显著提升,证明可追踪性是推动视觉基础推理进步的关键。代码已发布于https://github.com/Haochen-Wang409/TreeVGR。
近期,多模态大语言模型(MLLMs)在融合视觉与语言进行复杂推理方面展现了显著能力。尽管现有基准大多在离线环境下评估模型,使用一组固定的预录输入,我们推出了OST-Bench,这是一个旨在从主动探索场景的智能体视角评估在线时空理解的基准。在线特性强调了对逐步获取的观察数据进行处理和推理的需求,而时空组件则要求将当前视觉输入与历史记忆相结合,以支持动态空间推理。OST-Bench更好地反映了现实世界具身感知的挑战。基于高效的数据收集流程,OST-Bench包含了来自ScanNet、Matterport3D和ARKitScenes的1.4千个场景和1万个问答对。我们评估了多个领先的MLLMs在OST-Bench上的表现,发现它们在需要复杂时空推理的任务上表现欠佳。在线设置下,随着探索范围扩大和记忆增长,其准确性下降。通过进一步的实验分析,我们识别了模型间的常见错误模式,发现基于复杂线索的空间推理需求和长期记忆检索需求分别在两个维度上显著降低了模型性能,凸显了提升在线具身推理能力必须解决的核心挑战。为促进该领域的进一步研究与开发,我们的代码、数据集及基准均已公开。项目页面请访问:https://rbler1234.github.io/OSTBench.github.io/
视频大语言模型(LLMs)通过利用大量时空标记实现了强大的视频理解能力,但其计算复杂度随标记数量呈二次方增长。为解决这一问题,我们提出了一种无需训练的时空标记合并方法,命名为STTM。我们的核心洞见在于挖掘视频数据中先前被忽视的局部空间与时间冗余。STTM首先通过四叉树结构的从粗到细搜索将每帧转换为多粒度空间标记,随后在时间维度上进行定向成对合并。这种分解式合并方法在六个视频问答基准测试中均优于现有的标记缩减技术。值得注意的是,在50%的标记预算下,STTM实现了2倍加速且仅带来0.5%的准确率下降;在30%的预算下,加速比达到3倍,准确率仅降低2%。此外,STTM与查询无关,允许对同一视频的不同问题重复使用KV缓存。项目页面详见https://www.jshyun.me/projects/sttm。
视频本质上是对动态三维世界的二维投影。然而,我们的分析表明,仅基于原始视频数据训练的视频扩散模型往往难以在其学习到的表示中捕捉到有意义的几何感知结构。为了弥合视频扩散模型与物理世界底层三维特性之间的差距,我们提出了几何强制(Geometry Forcing),这是一种简单而有效的方法,旨在促使视频扩散模型内化潜在的三维表示。我们的核心洞见是通过将模型的中间表示与预训练的几何基础模型的特征对齐,引导其朝向几何感知结构发展。为此,我们引入了两种互补的对齐目标:角度对齐(Angular Alignment),通过余弦相似度强制方向一致性;以及尺度对齐(Scale Alignment),通过从归一化的扩散表示回归未归一化的几何特征,保留与尺度相关的信息。我们在相机视角条件和动作条件视频生成任务上评估了几何强制方法。实验结果表明,相较于基线方法,我们的方法显著提升了视觉质量和三维一致性。项目页面:https://GeometryForcing.github.io。
大型语言模型(LLMs)正越来越多地被部署为智能代理,这些系统具备规划、推理以及动态调用外部工具的能力。然而,在视觉推理领域,先前的方法大多受限于预定义的工作流程和静态工具集。本报告中,我们介绍了PyVision,一个交互式、多轮次的框架,它使多模态大型语言模型(MLLMs)能够自主生成、执行并优化针对特定任务定制的基于Python的工具,从而开启灵活且可解释的问题解决途径。我们构建了PyVision所创建工具的分类体系,并分析了这些工具在多样化基准测试中的应用情况。定量结果显示,PyVision实现了持续的性能提升,在V*基准上将GPT-4.1提升了+7.8%,在VLMsAreBlind-mini基准上使Claude-4.0-Sonnet提升了+31.1%。这些成果指向了一个更广泛的转变:动态工具化不仅让模型能够使用工具,更能发明工具,推动着视觉推理向更具代理性的方向迈进。
本文介绍了LangSplatV2,该系统在高分辨率图像上实现了476.2 FPS的高维特征溅射和384.6 FPS的3D开放词汇文本查询,分别比LangSplat提升了42倍的速度和47倍的性能,同时提高了查询精度。LangSplat采用高斯溅射技术将2D CLIP语言特征嵌入3D空间,显著提升了速度,并学习了一个结合SAM语义的精确3D语言场。这些3D语言场的进步对于需要在复杂场景中进行语言交互的应用至关重要。然而,即使使用先进的A100 GPU,LangSplat仍未实现实时推理性能(8.2 FPS),这严重限制了其广泛应用。本文首先对LangSplat进行了详细的时间分析,发现重量级解码器是主要的速度瓶颈。我们的解决方案LangSplatV2假设每个高斯在全局字典中充当稀疏编码,从而学习了一个完全消除重量级解码器需求的3D稀疏系数场。通过利用这种稀疏性,我们进一步提出了一种高效的稀疏系数溅射方法,并进行了CUDA优化,在仅需超低维特征溅射时间成本的情况下,渲染出高质量的高维特征图。实验结果表明,LangSplatV2不仅实现了更好或相当的查询精度,而且速度显著提升。代码和演示可在我们的项目页面获取:https://langsplat-v2.github.io。
尽管视频生成模型已取得显著进展,但现有最先进的方法仅能生成持续5至16秒的视频,这些视频常被标记为“长视频”。此外,超过16秒的视频在叙事过程中难以保持角色外观和场景布局的一致性。特别是,涉及多主体的长视频仍无法维持角色一致性和动作连贯性。虽然某些方法能生成长达150秒的视频,但它们往往存在帧冗余和低时间多样性的问题。近期研究尝试制作包含多个角色、叙事连贯且细节高保真的长视频。我们深入研究了32篇关于视频生成的论文,以识别出能持续产出这些质量的关键架构组件和训练策略。同时,我们构建了一个全面的新分类体系,对现有方法进行了系统梳理,并通过架构设计和性能特征对论文进行了分类比较。
预训练神经网络能否在不进行微调的情况下,根据不同的输入自适应调整其架构?对于简单任务,我们是否需要所有层,而这些层是否足以应对复杂任务?我们发现,预训练大型语言模型(LLM)的各层可作为独立模块进行操控,从而为每个测试样本构建出更优甚至更浅的定制模型。具体而言,预训练模型中的每一层都可以被跳过/剪枝,或像循环神经网络(RNN)那样多次重复,并与其他层以任意顺序堆叠,形成针对每个样本的层链(CoLa)。这种组合空间极大地扩展了现有工作关于循环/重复预训练模块、层剪枝或早期退出网络的研究范畴。我们开发了一种蒙特卡洛树搜索(MCTS)协议,用于探索并识别来自数学和常识推理基准测试中每个样本的最优CoLa。与固定深度的静态模型相比,CoLa允许快捷路径(快速思考)、同一层的重复(慢速思考)以及两者的结合,为不同输入提供了更加灵活、动态的架构。我们对MCTS优化的CoLa进行了广泛分析,得出两个关键发现:(1)对于原始LLM预测正确的样本中超过75%的案例,我们能够找到更短的CoLa,这表明在提升推理效率方面存在巨大空间;(2)对于原始预测错误的样本中超过60%的案例,我们能够识别出实现正确预测的CoLa,这表明在性能提升方面存在广阔空间。我们的研究结果凸显了使用固定架构的预训练LLM对不同样本进行推理的不足,并为解锁测试时深度自适应泛化能力开辟了道路。
从动态场景中提取紧凑且具有时间感知性的视觉表征,对于成功执行视觉跟踪和机器人操作等序列场景理解任务至关重要。本文提出了一种名为Token Bottleneck(ToBo)的简洁而直观的自监督学习流程,该流程通过将场景压缩至瓶颈令牌,并利用少量图像块作为提示来预测后续场景。在压缩阶段,ToBo流程通过保守地将参考场景编码为紧凑的瓶颈令牌,促进了序列场景表征的学习。在扩展阶段,我们引导模型利用瓶颈令牌及少量目标图像块作为提示来预测目标场景,从而捕捉时间动态。这一设计鼓励视觉骨干网络嵌入时间依赖性,进而实现对场景间动态转换的理解。在包括视频标签传播和模拟环境中的机器人操作等多种序列任务中的广泛实验表明,ToBo相较于基线方法具有显著优势。此外,将我们预训练的模型部署于实体机器人上,验证了其在真实环境中的鲁棒性和有效性。我们还进一步验证了ToBo在不同模型规模下的可扩展性。
尽管近年来语言模型(LMs)取得了令人瞩目的进展,这主要归功于从针对特定任务设计的专用模型转向基于强大架构(如Transformer)的通用模型,这些模型从原始数据中学习一切,但诸如分词等预处理步骤仍然是实现真正端到端基础模型的障碍。我们引入了一系列新技术,这些技术实现了一种动态分块机制,能够自动学习内容及上下文依赖的分割策略,并与模型的其他部分联合学习。将这一机制整合到一个显式的层次化网络(H-Net)中,可以替代(隐含层次化的)分词-语言模型-去分词流程,用一个完全端到端学习的单一模型取而代之。在计算资源和数据量相匹配的情况下,一个在字节级别上运作的单层H-Net,其表现优于基于BPE分词的强大Transformer语言模型。通过迭代增加层次结构至多级,H-Net能够建模多个抽象层次,进一步提升了性能,展现出显著优于数据规模的增长,并与规模为其两倍的分词Transformer模型相匹敌。在英语上预训练的H-Nets显著增强了字符级别的鲁棒性,并在无任何启发式规则或显式监督的情况下,定性学习了有意义的数据依赖分块策略。最后,在分词启发式较弱语言和模态中,如中文、代码或DNA序列(相较于基线,数据效率提升近4倍),H-Net相对于分词流程的改进更为显著,展示了真正端到端模型从未处理数据中更好学习与扩展的潜力。
哲学家哈里·法兰克福所定义的“废话”,指的是那些不顾其真实价值而作出的陈述。尽管先前的研究已探讨了大语言模型(LLM)的幻觉与奉承现象,我们提出“机器废话”作为一个统括性的概念框架,使研究者能够描述LLM中真实性丧失的广泛现象,并揭示其内在机制。我们引入了“废话指数”,这一新颖指标量化了LLM对真理的漠视程度,并提出了一种补充性分类法,分析了四种定性形式的废话:空洞修辞、闪烁其词、模棱两可之词及未经证实的断言。我们在Marketplace数据集、政治中立性数据集以及专为评估机器废话设计的新基准BullshitEval(涵盖100个AI助手的2400个场景)上进行了实证评估。结果表明,通过人类反馈强化学习(RLHF)进行的模型微调显著加剧了废话现象,而推理时的链式思维(CoT)提示则特别放大了某些废话形式,尤其是空洞修辞和闪烁其词。我们还观察到,在政治语境中机器废话普遍存在,其中模棱两可之词成为主导策略。这些发现凸显了AI对齐中的系统性挑战,并为促进LLM更真实的行为提供了新的见解。
当前最先进的视觉-语言模型(VLMs)在抽象推理任务上似乎受限于其视觉嵌入的线性可分性。本研究通过引入线性可分性上限(LSC)——即简单线性分类器在VLM视觉嵌入上的表现——来探究这一“线性推理瓶颈”。我们发现这一瓶颈普遍存在,其根源并非感知能力不足,而是语言模型推理路径的缺陷。我们证明这是一个可解决的校准问题。然而,所需的干预措施因任务而异:对于语义概念,激活现有路径已足够;而复杂的关联推理则需要调整核心模型权重。通过使用后缀调优作为方法学控制,我们发现了VLMs内存在强大但休眠的推理路径的有力证据。然而,对于需要更深层次调整的复杂关联任务,尽管嵌入保持良好分离,但明确提升表示质量会导致模型在新提示格式上失败。最终,本研究为VLM分析提供了新的视角,表明稳健的推理关键在于针对性校准,而不仅仅是改进表示学习。
人工智能代理的快速发展点燃了长期以来的雄心——利用它们加速科学发现。实现这一目标需要深刻理解人类知识的前沿。因此,“人类终极考试”(HLE)为评估科学AI代理提供了一个极具挑战性的试金石。在本研究中,我们致力于构建通用代理的基础架构,并通过在HLE上的领先表现验证其能力。为此,我们引入了X-Master,一个工具增强的推理代理,旨在通过在其推理过程中灵活地与外部工具互动来模拟人类研究者。该代理以代码作为交互语言的概念为指导,能够灵活利用内置的Python库及我们定制的工具来增强推理能力。我们进一步通过X-Masters——一个分散与堆叠的代理工作流——扩展其能力,系统性地提升推理的广度和深度。我们的开源解决方案X-Masters在HLE上以32.1%的得分创下了新的最先进记录,超越了OpenAI和谷歌的深度研究(分别为26.6%和26.9%),并成为首个突破30%门槛的系统。这项工作使我们能更深入地理解复杂任务解决,并积累了宝贵的经验,为未来的进步提供指导,引领后续模型训练。
神经音频编解码器和自编码器已成为音频压缩、传输、特征提取以及潜在空间生成的多功能模型。然而,一个关键局限在于,大多数模型在训练时以最大化重建保真度为目标,往往忽视了不同下游应用所需的具体潜在结构。我们提出了一种简单的事后处理框架,通过修改预训练自编码器的瓶颈层来解决这一问题。我们的方法引入了一个“再瓶颈”机制,即仅通过潜在空间损失进行训练的内部瓶颈,以注入用户定义的结构。我们在三个实验中展示了该框架的有效性。首先,我们在不牺牲重建质量的前提下,对潜在通道施加了排序。其次,我们将潜在表示与语义嵌入对齐,分析其对下游扩散建模的影响。第三,我们引入了等变性,确保输入波形上的滤波操作直接对应于潜在空间中的特定变换。最终,我们的再瓶颈框架提供了一种灵活且高效的方式,用于定制神经音频模型的表示,使其能够以最少的额外训练无缝适应不同应用的多样化需求。
当前扩展大型语言模型(LLMs)的主流范式依赖于整体、端到端的训练,这一过程资源消耗巨大且缺乏灵活性。本文探讨了一种基于非可训练、确定性输入嵌入的替代性、建设性模型开发方法。在先前的研究[1]中,我们证实了利用源自Unicode字符视觉结构的冻结嵌入,Transformer中能够涌现出高层次的语义推理能力。在此,我们进一步展示这一固定表示基底作为通用“对接端口”,支持两种强大且高效的扩展范式:无缝模块化组合与渐进式层级增长。 首先,我们证明,针对不同数据集(如俄语与中文文本)训练的专业模型,在无需架构改动的情况下,仅通过简单平均其输出逻辑值,即可在训练后合并为一个能力更强的专家混合模型(MoE)。该MoE模型在MMLU等推理基准上立即展现出性能提升,超越其组成专家且无灾难性遗忘现象。其次,我们提出了一种层级建设性训练方法,通过逐层堆叠并训练,逐步“生长”出一个深度Transformer。此方法展示了稳定的收敛性,以及模型深度与复杂推理能力(如SQuAD所需)涌现之间的明确关联。 我们的发现预示着从整体优化向更生物化或建设性AI开发模式的转变,其中复杂性是逐步构建的,模块可以自由组合。这为资源高效扩展、持续学习以及构建强大AI系统的更民主化生态系统开辟了新途径。我们公开所有代码与模型,以促进进一步研究。
理解大型语言模型(LLMs)中语义表征的所在,对于模型的可解释性和架构创新至关重要。主流观点认为,可训练的输入嵌入层是基础的“意义向量”。本文对这一观点提出挑战。我们构建了Transformer模型,其中嵌入层完全冻结,向量并非源自数据,而是基于Unicode字符的视觉结构生成。这些非语义的、预先计算的视觉嵌入在训练过程中保持不变。我们的方法兼容任何分词器,包括我们引入的一种新型以Unicode为中心的分词器,以确保对文本的全面覆盖。尽管缺乏可训练的、语义初始化的嵌入,我们的模型仍能收敛,生成连贯的文本,并且关键的是,在MMLU推理基准测试中,超越了架构相同但嵌入层可训练的模型。我们将此归因于传统模型中的“表征干扰”,即嵌入层同时承担了学习结构和语义特征的重任。我们的结果表明,高级语义并非输入嵌入的固有属性,而是Transformer组合架构和数据规模下涌现的特性。这重新定义了嵌入的角色,从意义的容器转变为结构的基本单元。我们公开所有代码和模型,以促进进一步研究。