每日精选AI研究论文及翻译
强化微调(RFT)作为一种包含监督微调(SFT)和强化学习(RL)的两阶段框架,在提升大语言模型(LLM)推理能力方面已展现出显著成效。然而,将RFT扩展至大规模视频语言模型(LVLM)仍面临挑战。我们提出VideoP2R——一种创新的过程感知视频RFT框架,通过将感知与推理建模为独立过程来增强视频推理能力。在SFT阶段,我们开发了三步生成流程,构建了包含16.2万条高质量过程感知思维链(CoT)的数据集VideoP2R-CoT-162K;在RL阶段,我们引入了新型过程感知分组相对策略优化(PA-GRPO)算法,为感知和推理过程分别提供奖励机制。大量实验表明,VideoP2R在七项视频推理与理解基准测试中的六项达到最先进(SotA)性能。消融研究进一步验证了过程感知建模与PA-GRPO的有效性,并证明模型的感知输出能为下游推理提供充分信息支持。
提升大语言模型的推理能力,特别是在参数受限条件下的表现,对实际应用至关重要。已有研究提出循环Transformer架构,通过为每个token分配固定次数的额外迭代来提升生成质量。该方法在完成标准前向传播后,不直接进行语言化输出,而是将最后一层隐藏状态作为输入进行多次迭代以优化token预测结果。然而我们发现存在潜在过度思考现象:首轮预测正确的简单token在后续迭代中有时会被错误修正。针对该问题,我们提出Think-at-Hard动态潜在思考机制,仅对困难token进行深度迭代。该方法采用轻量级神经决策器,仅在标准前向传播后可能预测错误的token处触发潜在迭代。在潜在迭代过程中,低秩自适应模块将LLM目标从通用下一token预测转向专注困难token优化。我们进一步提出双因果注意力机制,将注意力范围从token序列维度扩展至迭代深度维度,在保持全序列并行性的同时实现跨迭代信息流动。实验表明,TaH在五大挑战性基准测试中均提升LLM推理性能,且参数量保持不变。与对所有输出token进行双次迭代的基线相比,TaH在免除94%token二次迭代的同时实现8.1-11.3%的准确率提升。相较于使用相同数据微调的单次迭代Qwen3模型,其准确率增益达4.0-5.0%。当允许LoRA和迭代决策器引入不足3%的额外参数时,增益分别提升至8.5-12.6%和5.3-5.4%。代码已开源:https://github.com/thu-nics/TaH。
创新性视觉风格化是艺术创作的基石,然而生成新颖且一致的视觉风格仍面临重大挑战。现有生成方法通常依赖冗长的文本提示、参考图像或参数高效微调来指导风格感知的图像生成,但往往存在风格一致性不足、创造力受限和风格表示复杂等问题。本文通过提出"代码到风格"图像生成这一新任务,论证了"一种风格仅需一个数值编码"的理念——该方法仅基于数值风格编码即可生成具有新颖、一致视觉风格的图像。迄今为止,该领域主要由业界(如Midjourney)探索,学术界尚未有开源研究成果。为填补这一空白,我们提出了首个开源方法CoTyle。具体而言,我们首先从图像集合中训练离散风格码本以提取风格嵌入,这些嵌入作为文生图扩散模型的条件来生成风格化图像。随后,我们在离散风格嵌入上训练自回归风格生成器以建模其分布,从而实现新颖风格嵌入的合成。在推理阶段,数值风格码通过风格生成器映射为唯一风格嵌入,该嵌入引导文生图扩散模型生成对应风格的图像。与现有方法不同,我们的方法以极简输入解锁了海量可复现的风格空间,兼具无与伦比的简洁性与多样性。大量实验验证了CoTyle能有效将数值编码转化为风格控制器,充分证明"一种风格,一个编码"的价值。
我们推出AraLingBench:一个完全由人工标注的基准测试,旨在评估大型语言模型(LLMs)的阿拉伯语语言能力。该基准涵盖五大核心类别:语法、词法、拼写、阅读理解和句法,通过150道专家设计的多项选择题直接评估对语言结构的理解。对35个阿拉伯语及双语LLMs的评估显示,当前模型在表层语言能力上表现出色,但在深层次语法和句法推理方面存在困难。AraLingBench凸显了知识型基准测试高分与真正语言掌握之间的持续差距,表明许多模型通过记忆或模式识别而非真实理解取得成功。通过分离并衡量基础语言技能,AraLingBench为开发阿拉伯语LLMs提供了一个诊断框架。完整的评估代码已在GitHub上公开。
基础模型已在众多领域彻底改变了人工智能,但在极端多标签分类(XMC)领域其变革性潜力仍远未得到充分挖掘。XMC中的查询需要从极大规模的标签空间中关联相关标签,这要求必须在效率与性能之间取得平衡。因此,近期许多研究通过小型编码器架构学习嵌入向量,将XMC高效转化为最大内积搜索问题。本文聚焦XMC的两个关键方向:如何有效利用更大的仅解码器模型,以及在保持计算效率的同时如何挖掘视觉信息。我们证明这两方面各自在XMC中具有重要作用,并可协同提升性能。实验表明,数十亿参数的仅解码器模型能以可控的计算开销实现显著改进。此外,我们提出的视觉增强型极端多标签学习框架(ViXML)通过每张图像提取单一嵌入向量,高效整合基础视觉模型,在限制计算量增长的同时解锁多模态能力。值得注意的是,采用小型编码器的ViXML在多数情况下优于纯文本仅解码器模型,印证了"一图胜千言"的算力价值。最后,我们扩展了现有纯文本数据集以利用视觉元数据,并将其开源供未来基准测试。在四个公开纯文本数据集及其视觉增强版本上的综合实验验证了方案有效性,在最大数据集上P@1指标较之前最优成果提升高达8.21%。ViXML代码已发布于https://github.com/DiegoOrtego/vixml。
尽管思维链(CoT)提示技术使大语言模型能够进行复杂的符号推理,但其仍局限于离散文本范畴,无法模拟现实世界中受物理规律支配的连续动态。近期出现的视频生成模型通过帧序列推理(CoF)机制——将思维具象化为逐帧可视序列,每帧代表基于物理的推理步骤——展现出成为世界模拟器的潜力。尽管已有令人瞩目的演示,但核心挑战依然存在:现有基准主要关注保真度或对齐度,未能评估CoF推理能力,因而无法衡量多步规划、算法逻辑或抽象模式外推等核心认知能力。这一评估空白阻碍了对模型能力的系统性认知及改进方法的理论指导。我们提出Gen-ViRe(生成式视觉推理基准),该框架植根于认知科学与现实AI应用,将CoF推理分解为从感知逻辑到抽象规划的六大认知维度及24项子任务。通过多源数据策展、最小化提示协议,以及结合详细标准的混合视觉语言模型辅助评估,Gen-ViRe首次实现对视频模型推理能力的量化评估。我们在前沿系统上的实验表明,视觉质量与真实推理深度之间存在显著差距,由此建立的基线标准和诊断工具将推动真正世界模拟器的发展。
依赖纯文本重思考机制的自反思方法在多数多模态任务中表现良好。然而当直接应用于长视频理解场景时,这些方法暴露出明显局限性。其根本原因在于两点:(1)长视频理解涉及更丰富且动态变化的视觉输入,仅对文本信息进行重思考不足以为继,必须建立专门针对视觉信息的再思考机制;(2)纯文本反思机制缺乏跨模态交互能力,无法在反思过程中充分融合视觉信息。基于这些发现,我们提出REVISOR(面向反射性视觉片段推理)框架——一种新型工具增强型多模态反思方案。该框架使多模态大语言模型能够协同构建跨文本与视觉模态的内省式反思流程,显著提升其对长视频的理解推理能力。为确保REVISOR在强化学习中能准确审视与问题高度相关的视频片段,我们设计了双归因解耦奖励机制。该机制融入GRPO训练策略后,可强制对齐模型推理与所选视频证据间的因果关系。值得注意的是,REVISOR框架无需额外监督微调或外部模型辅助,即可显著增强多模态大语言模型的长视频理解能力,在VideoMME、LongVideoBench、MLVU和LVBench四个基准测试中均取得显著效果。
评估大规模视觉语言模型(LVLMs)的鲁棒性对其持续发展和在现实应用中的负责任部署至关重要。然而,现有的鲁棒性基准测试通常聚焦于幻觉或误导性文本输入,而在评估视觉理解能力时,很大程度上忽视了误导性视觉输入带来的同等关键挑战。为填补这一重要空白,我们推出首个综合性基准测试MVI-Bench,专门用于评估误导性视觉输入如何削弱LVLMs的鲁棒性。基于基础视觉基元,MVI-Bench的设计围绕误导性视觉输入的三个层次展开:视觉概念、视觉属性和视觉关系。基于此分类体系,我们筛选出六个代表性类别,并编制了1,248个经专业标注的视觉问答实例。为支持细粒度鲁棒性评估,我们进一步提出MVI-Sensitivity——一种能在微观层面表征LVLM鲁棒性的创新指标。对18个前沿LVLM的实证研究揭示了模型对误导性视觉输入的显著脆弱性,而基于MVI-Bench的深度分析为开发更可靠、更鲁棒的LVLM提供了可操作的指导见解。基准测试与代码库可通过https://github.com/chenyil6/MVI-Bench获取。
我们推出Orion——一种能够接收任意模态输入并生成任意模态输出的智能体框架。该框架通过具备多工具调用能力的智能体架构,专为视觉AI任务设计并实现了顶尖性能。与传统视觉语言模型仅生成描述性输出不同,Orion通过协调包括目标检测、关键点定位、全景分割、光学字符识别和几何分析在内的专业计算机视觉工具集,来执行复杂的多步骤视觉工作流。该系统在MMMU、MMBench、DocVQA和MMLongBench等基准测试中达到领先水平,将单体视觉语言模型升级为生产级视觉智能系统。通过融合神经感知与符号执行,Orion实现了自主视觉推理,标志着从被动视觉理解到主动工具驱动型视觉智能的重要转变。
大型语言模型(LLMs)正被日益广泛地应用于构建能够通过主动环境交互(如工具调用)解决复杂问题的智能体。强化学习(RL)被视为训练此类智能体的关键技术并展现出巨大潜力,但目前将RL有效应用于LLM智能体仍处于起步阶段且面临显著挑战。这一新兴领域目前缺乏针对LLM智能体场景的深度强化学习方法研究,同时也亟需灵活易扩展的专用训练框架。为推动该领域发展,本文首先通过系统化扩展马尔可夫决策过程(MDP)框架来明确定义LLM智能体的核心组件,进而梳理并阐释适用于LLM智能体的强化学习方法。其次,我们提出了Agent-R1——一个模块化、灵活性高且用户友好的RL驱动型LLM智能体训练框架,该框架可轻松适配不同任务场景与交互环境。我们在多跳问答基准任务上进行了实验,初步验证了所提方法与框架的有效性。
近期,全模态大语言模型(OmniLLMs)在统一音视频理解领域日益受到研究关注,然而处理音视频令牌序列会形成显著的计算瓶颈。现有令牌压缩方法尚未满足这一新兴的多模态令牌联合压缩需求。为填补此空白,我们提出OmniZip——一种无需训练、音频引导的音视频令牌压缩框架,可优化多模态令牌表征并加速推理。具体而言,OmniZip首先识别显著音频令牌,随后计算每个时间组的音频保留分数以捕捉信息密度,从而动态指导视频令牌剪枝,并通过跨模态相似性增强的音频锚点保留关键信息。针对每个时间窗口,OmniZip采用交错时空方案压缩视频令牌。大量实验结果表明OmniZip的优势:在无需训练的情况下保持性能的同时,相较其他顶尖方案实现了3.42倍推理加速和1.4倍内存缩减。
随着大语言模型(LLMs)的快速发展,现有基准测试在评估前沿模型时已出现性能饱和现象,难以有效区分其能力差异。同时,当前的高难度基准往往存在学科覆盖狭窄、答案形式过于简化以及易受数据污染等问题,导致与真实科学探究之间存在保真度差距。为应对这些挑战,我们推出ATLAS(面向通用人工智能的科学逻辑应用测试平台)——一个由约800道原创题目构成的大规模、高难度、跨学科评估体系。该平台由领域专家(博士及以上级别)开发,涵盖数学、物理、化学、生物、计算机科学、地球科学和材料科学七大核心学科,其核心特性包括:(1)高原创性与抗污染性,所有题目均为全新创建或深度改编,杜绝测试数据泄露;(2)跨学科导向,重点评估模型整合多学科知识进行跨域推理的能力;(3)高保真答案设计,摒弃简单选择题,强调需要多步推理、含LaTeX格式数学表达式的开放式复杂答案;(4)严格质量控制,采用多阶段专家评审与对抗测试机制,确保题目难度、科学性与准确性。我们还提出采用LLM评审团的新型评估范式,实现对复杂答案的自动化精细评估。在主流模型上的初步实验表明,ATLAS能有效区分其高级科学推理能力。我们计划将ATLAS发展为长期开放、社区驱动的平台,为通往通用人工智能的进展提供可靠"标尺"。
基础模型已成为众多视觉任务的有效骨干网络。然而,当前自监督特征将高层语义与低层物理因素(如几何形状和光照)相互纠缠,阻碍了其在需要显式物理推理任务中的应用。本文提出Φeat——一种新型物理驱动的视觉骨干网络,它能促进对材料身份(包括反射率线索和几何细观结构)敏感的表示。我们的核心思路是采用预训练策略,对比同一材料在不同形状和光照条件下的空间裁剪样本与物理增强样本。虽然类似数据曾用于本征分解或材料估计等高阶监督任务,但我们证明纯自监督训练策略无需显式标签即可为需要对外部物理因素保持鲁棒性的任务提供强先验。通过特征相似性分析和材料选择实验,我们评估了所学表示的性能,表明Φeat能捕捉超越语义分组的物理基础结构。这些发现凸显了无监督物理特征学习作为视觉与图形学中物理感知基础的光明前景。
大型语言模型(LLM)是强大的零样本与少样本学习者。然而在对候选选项集进行预测时,LLM存在标签偏差问题,现有校准方法未能解决多标记类别标签引发的偏差。我们针对标签长度偏差现象展开研究——即使经过标准长度归一化处理,不同长度的标签仍会被不一致地对待。为缓解该问题,我们提出归一化上下文校准(NCC)方法,通过在全标签层面进行归一化与校准来提升预测效果。在多个数据集和模型上的实验表明,NCC相较现有方法实现了统计显著提升,F1分数最高增长10%。此外,NCC还能将偏差缓解能力拓展至多项选择题解答等更广泛任务。分析显示,结合上下文学习时,NCC对少样本示例选择的敏感性更低,用更少示例即可获得竞争优势,并能生成更可靠的可信度估计。这些发现表明,缓解全标签偏差对提升基于LLM方法的性能与鲁棒性具有重要意义,尤其在现实应用中类别标签天然由多标记构成的场景下。
我们推出了一款主动式听觉辅助系统,该系统能自动识别并分离佩戴者的对话对象,无需用户明确指令。该系统基于以自我为中心的双耳音频进行运作,利用佩戴者自身语音作为锚点,通过分析对话轮换模式和互动动态来推断交流对象并抑制其他声音。为实现设备端实时运算,我们提出双模型架构:轻量级流式模型每12.5毫秒运行一次,实现低延迟提取对话对象;而运算频率较低的模型则负责捕捉长时程对话动态。通过在真实场景中采集的2-3人对话测试集(使用双耳第一视角硬件从11位参与者处收集,总时长6.8小时)上的实验表明,该系统在多对话场景中具有识别与隔离对话对象的泛化能力。我们的研究标志着听觉辅助设备向主动适应对话动态与参与度迈出了重要一步。更多信息请访问我们的网站:https://proactivehearing.cs.washington.edu/
智能体编程工具以自然语言描述的目标作为输入,将其分解为具体任务,并以最少的人工干预编写或执行实际代码。该过程的核心是智能体上下文文件(即"面向智能体的README文件"),这些文件提供持久性的项目级指令。本文通过对来自1,925个代码库的2,303个智能体上下文文件进行首次大规模实证研究,系统分析了其结构、维护模式和内容特征。研究发现这些文件并非静态文档,而是类似配置代码般持续演化的复杂产物,通过频繁的小幅增补进行维护且可读性较差。对16类指令的内容分析表明,开发者优先关注功能上下文:构建运行命令(62.3%)、实现细节(69.9%)和系统架构(67.7%)。同时发现显著缺陷:非功能性需求如安全性(14.5%)和性能(14.5%)鲜少被明确规范。这些发现表明,开发者虽利用上下文文件实现智能体功能,却未设立足够防护措施来确保智能体编写代码的安全性与性能,凸显出改进工具链与实践范式的迫切需求。
尽管三维大语言模型(3D-LLMs)近期取得进展,其在将语言准确关联到三维环境中的视觉与空间元素方面仍存在局限。这一局限部分源于训练数据因三维资源稀缺而侧重于语言推理而非空间理解,导致固有的关联偏差未能解决。为此,我们提出以三维场景编辑为核心机制,通过精细化空间操作生成精准的视觉反事实样本以消除偏差,无需昂贵的场景重建或大规模三维数据采集。进一步地,为使编辑具有针对性并直击模型弱点,我们提出DEER-3D——一个遵循“分解、诊断评估、编辑、再训练”结构化流程的错误驱动框架,而非传统方法中广泛或随机的数据增强。具体而言,当检测到3D-LLM的关联错误时,该框架首先诊断出具体的谓词级错误(如属性或空间关系错误),随后执行最小化的谓词对齐式三维场景编辑(如重着色或重定位),生成针对性反事实监督信号用于迭代式模型微调,显著提升关联准确性。我们在多个三维关联与场景理解任务的基准测试中验证编辑流程,通过迭代优化在所有评估数据集上均取得稳定提升。DEER-3D证明了错误驱动的靶向场景编辑在弥合三维大语言模型语言推理与空间关联能力方面的有效性。
人类情感难以通过语言准确传达,且常在表达过程中被抽象化;而脑电图信号能为情绪脑活动提供更直接的观测窗口。近期研究表明,深度学习模型能处理这些信号以实现高精度情绪识别。然而现有方法多忽视不同脑区间的动态交互作用,而这种互动对理解情绪随时间展开与演变的机制至关重要,可能有助于提升情绪识别的准确性。为此,我们提出RBTransformer——一种基于Transformer的神经网络架构,该架构在潜在空间中对大脑皮层间神经动力学进行建模,以更好地捕捉结构化神经交互,从而实现高效的基于脑电图的情绪识别。首先将脑电信号转换为频带差分熵标记,再通过电极身份嵌入保留空间溯源信息。这些标记经连续的皮层间多头注意力块处理,构建电极×电极注意力矩阵,使模型能够学习皮层间神经依赖关系。最终特征通过分类头获得预测结果。我们在SEED、DEAP和DREAMER数据集上开展了广泛实验,特别在受试者依赖设定下,针对效价、唤醒度和优势度三个维度(DEAP和DREAMER数据集),分别进行二元与多分类测试。结果表明,所提出的RBTransformer在所有数据集、全部分类设定下的三个维度均超越现有最优方法。源代码详见:https://github.com/nnilayy/RBTransformer。
混沌工程(Chaos Engineering,CE)是一种旨在提升分布式系统韧性的工程技术。该方法通过向系统主动注入故障来测试其容错能力,发现潜在缺陷并在引发生产环境故障前进行修复。当前主流CE工具已能自动化执行预定义的混沌实验,但实验方案设计及基于结果的系统优化仍依赖人工操作。这些过程不仅劳动密集,还需要跨领域专业知识。为应对这些挑战,实现低成本构建高韧性系统的目标,本文提出ChaosEater系统——基于大语言模型实现全周期自动化的混沌工程框架。该系统依据系统化CE周期预定义智能体工作流,并将工作流中的细分流程分配给大语言模型执行。ChaosEater专注于基于Kubernetes的软件系统混沌工程,其大语言模型通过需求定义、代码生成、测试调试等软件工程任务完成CE闭环。我们通过对中小型及大规模Kubernetes系统的案例研究进行评估,结果表明该系统能以极低的时间和经济成本持续完成合理的CE闭环,其周期质量同时获得了人类工程师与大语言模型的双重验证。
大型视觉语言模型(LVLM)通常将视觉编码器提取的特征与预训练大语言模型(LLM)对齐。然而,这种设计使视觉感知模块成为性能瓶颈,制约了模型的整体能力。传统评估基准虽富含视觉语义信息,但往往存在不可避免的局部捷径,可能导致高估模型的感知能力。本文提出TopoPerception基准,利用拓扑特性从多粒度层面严格评估LVLM的全局视觉感知能力。由于拓扑性质依赖于图像的整体结构且对局部特征具有不变性,该基准能实现无捷径的全局感知评估,与依赖语义的任务形成本质区别。我们在TopoPerception上测试了前沿模型,发现即使在最粗粒度层面,所有模型的表现均不优于随机猜测,揭示其全局视觉特征感知能力的严重缺失。值得注意的是,同系列模型呈现一致趋势:推理能力越强的模型准确率反而越低。这表明单纯扩大模型规模不仅无法弥补这一缺陷,甚至可能加剧问题。突破性进展可能需要新的训练范式或架构创新。TopoPerception不仅揭示了当前LVLM的关键瓶颈,更为提升其全局视觉感知能力提供了研究视角与改进方向。数据与代码已开源:https://github.com/Wenhao-Zhou/TopoPerception。