每日精选AI研究论文及翻译
我们开源了MiMo-VL-7B-SFT和MiMo-VL-7B-RL两款强大的视觉-语言模型,它们在通用视觉理解和多模态推理任务中均展现出顶尖性能。MiMo-VL-7B-RL在40项评估任务中的35项上超越了Qwen2.5-VL-7B,并在OlympiadBench上取得了59.4的高分,超越了参数规模高达78B的模型。在GUI基础应用领域,它以56.1的分数在OSWorld-G上树立了新标杆,甚至超越了如UI-TARS等专用模型。我们的训练方法结合了四阶段预训练(2.4万亿tokens)与混合在线强化学习(MORL),整合了多样化的奖励信号。我们认识到在预训练阶段融入高质量推理数据及长链思维的重要性,以及混合RL在同步多领域优化挑战中的优势。此外,我们还贡献了一套覆盖50+任务的全面评估套件,以促进可复现性并推动领域发展。模型检查点及完整评估套件可在https://github.com/XiaomiMiMo/MiMo-VL获取。
受Deepseek-R1在复杂文本任务中展现出的卓越推理能力启发,众多研究尝试通过直接应用强化学习(RL)来激发多模态大语言模型(MLLMs)的类似能力。然而,这些方法在激活复杂推理方面仍面临挑战。本文并未孤立地探讨多模态RL,而是深入分析了当前的训练流程,揭示了三个关键现象:1)有效的冷启动初始化对于提升MLLM推理能力至关重要。有趣的是,我们发现仅使用精心挑选的文本数据进行初始化,其性能即可超越许多近期的多模态推理模型,甚至在实施多模态RL之前。2)标准GRPO应用于多模态RL时,存在梯度停滞问题,这降低了训练的稳定性和性能。3)在多模态RL阶段之后,进行仅文本的RL训练,能进一步强化多模态推理能力。这种分阶段训练方法有效平衡了感知基础与认知推理的发展。基于上述洞见并解决多模态RL问题,我们推出了ReVisual-R1,在包括MathVerse、MathVision、WeMath、LogicVista、DynaMath以及极具挑战性的AIME2024和AIME2025在内的多个基准测试中,实现了开源7B MLLMs的新巅峰。
作为具身智能体的一部分,大型语言模型(LLMs)通常用于根据用户的自然语言指令进行行为规划。然而,在现实环境中处理模糊指令仍然是LLMs面临的一大挑战。尽管已有多种任务模糊性检测方法被提出,但由于它们在不同数据集上进行测试,且缺乏统一的基准,难以进行有效比较。为此,我们提出了AmbiK(厨房环境中的模糊任务),这是一个完全基于文本的数据集,包含了针对厨房环境中机器人的模糊指令。AmbiK在LLMs的协助下收集,并经过人工验证。该数据集包含1000对模糊任务及其明确对应版本,按模糊类型(人类偏好、常识知识、安全性)分类,并附有环境描述、澄清问题与答案、用户意图以及任务计划,总计2000项任务。我们期望AmbiK能够帮助研究人员对模糊性检测方法进行统一比较。AmbiK数据集可通过https://github.com/cog-model/AmbiK-dataset 获取。
推理模型在涉及数学、编程和科学的众多基准测试中取得了快速进展。然而,关于最佳训练方法仍存在许多未解之谜,因为最先进的模型往往依赖于专有数据集,而这些数据集几乎没有公开信息。为解决这一问题,OpenThoughts项目的目标是创建用于训练推理模型的开源数据集。经过初步探索,我们的OpenThoughts2-1M数据集催生了OpenThinker2-32B,这是首个在公开推理数据上训练的模型,在AIME和LiveCodeBench等标准推理基准上媲美DeepSeek-R1-Distill-32B。随后,我们通过1000多次对照实验系统地研究了数据生成管道的每一步,进一步改进了数据集,推出了OpenThoughts3。将管道扩展至120万条样本,并采用QwQ-32B作为教师模型,我们得到了OpenThinker3-7B模型,该模型实现了最先进的成果:在AIME 2025上达到53%,在LiveCodeBench 06/24-01/25上达到51%,在GPQA Diamond上达到54%。我们的所有数据集和模型均可在https://openthoughts.ai获取。
长文本生成对于大型语言模型(LLMs)而言仍是一项重大挑战,尤其是在保持连贯性、确保逻辑一致性以及随着序列长度增加维持文本质量方面。为应对这些局限,我们提出了SuperWriter-Agent,一个基于代理的框架,旨在提升长文本生成的质量与一致性。SuperWriter-Agent通过引入明确的规划与精炼阶段,将结构化思维过程融入生成流程,引导模型遵循更为审慎且认知基础扎实的创作过程,类似于专业作家的写作方式。基于此框架,我们构建了一个监督微调数据集,用于训练一个7B参数的SuperWriter-LM模型。此外,我们开发了一种分层直接偏好优化(DPO)方法,利用蒙特卡洛树搜索(MCTS)传播最终质量评估,并据此优化每一步生成。在多样化的基准测试中,实证结果表明,SuperWriter-LM实现了最先进的性能,在自动评估和人工评估中均超越了更大规模的基线模型。同时,全面的消融研究验证了分层DPO的有效性,并强调了引入结构化思维步骤对于提升长文本生成质量的价值。
现有的长上下文语言模型(LCLM)评估框架大致可分为现实任务与合成任务两大类。尽管这两类方法各有其价值,但它们均存在固有的局限性。现实任务过于复杂,难以解释或特征化,且易受数据污染的影响。相比之下,合成任务常采用“大海捞针”(NIAH)的形式,其中“针”与“草堆”之间缺乏连贯性,削弱了其作为真实应用场景代理的有效性。针对这些挑战,我们提出理想的长期上下文评估框架应具备三大核心特征:无缝上下文、可控设置及健全评估。本研究引入了LongBioBench,一个创新性基准,它利用人工生成的传记作为受控环境,从理解、推理及可信度三个维度对LCLMs进行评估。我们的实验评估涵盖了18种LCLMs,结果显示,大多数模型在语义理解及对检索结果的基本推理方面仍存在不足,且随着上下文长度的增加,其可信度降低。进一步分析指出,现有合成基准采用的一些设计选择,如上下文不连贯、数值型“针”及缺乏干扰项,使其在测试模型长上下文能力时显得脆弱。此外,我们还发现,长上下文持续预训练主要通过调整RoPE嵌入以适应扩展的上下文长度。综上所述,与以往的合成基准相比,LongBioBench在模拟真实语言任务与保持可控性之间实现了更好的平衡,并具有高度的可解释性和可配置性。
视频的序列化结构对多模态大语言模型(MLLMs)定位多帧证据并进行多模态推理的能力提出了挑战。然而,现有的视频基准主要集中于理解任务,这些任务仅要求模型匹配问题中提到的帧(以下简称“问题帧”)并感知少量相邻帧。为填补这一空白,我们提出了MMR-V:视频多模态深度推理基准。该基准具有以下特征:(1)长距离、多帧推理:要求模型推断和分析可能远离问题帧的证据帧。(2)超越感知:问题无法仅通过直接感知回答,而需对隐含信息进行推理。(3)可靠性:所有任务均经过人工标注,参考了大量现实世界用户的理解,以确保与普遍认知一致。(4)迷惑性:精心设计的干扰项标注策略,以减少模型走捷径的可能性。MMR-V包含317个视频和1,257个任务。我们的实验表明,当前模型在多模态推理方面仍存在困难;即使表现最佳的模型o4-mini,其准确率也仅为52.5%。此外,当前的推理增强策略(如思维链和扩展测试时计算)带来的提升有限。进一步分析表明,多模态推理所需的思维链与文本推理中的思维链存在差异,这在一定程度上解释了性能提升有限的原因。我们希望MMR-V能激发更多关于增强多模态推理能力的研究。
大型语言模型(LLMs)的发展依赖于可信的评估。然而,当前大多数评估依赖于公开基准测试,这些基准容易受到数据污染问题的影响,严重损害了评估的公平性。以往的研究侧重于构建动态基准以应对污染问题,但持续构建新基准既成本高昂又具有周期性。在本研究中,我们旨在通过分析受污染模型自身的机制来解决污染问题。通过实验,我们发现受污染模型的高估现象很可能源于训练过程中参数获取了捷径解。进一步地,我们提出了一种通过比较与因果分析识别捷径神经元的新方法。基于此,我们引入了一种名为“捷径神经元修补”的评估方法,以抑制捷径神经元的作用。实验验证了我们的方法在减轻污染方面的有效性。此外,我们的评估结果与近期发布的可信基准MixEval显示出极强的线性相关性,斯皮尔曼系数(rho)超过0.95。这一高度相关性表明,我们的方法能够准确揭示模型的真实能力,具有可信度。我们进行了更多实验,以证明该方法在不同基准和超参数设置下的普适性。代码详见:https://github.com/GaryStack/Trustworthy-Evaluation
在视频游戏和虚拟现实等实际应用中,常常需要构建用户能够沿自定义相机轨迹探索的三维场景。尽管从文本或图像生成三维物体已取得显著进展,但创建长距离、三维一致且可探索的三维场景仍是一个复杂且具挑战性的问题。在本研究中,我们提出了Voyager,一种新颖的视频扩散框架,它能够从单张图像出发,根据用户定义的相机路径生成世界一致的三维点云序列。与现有方法不同,Voyager实现了端到端的场景生成与重建,帧间具有内在一致性,无需依赖三维重建流程(如运动结构恢复或多视图立体匹配)。我们的方法融合了三大核心组件:1)世界一致视频扩散:一个统一架构,联合生成对齐的RGB与深度视频序列,基于现有世界观察确保全局一致性;2)长距离世界探索:配备点云剔除的高效世界缓存,以及平滑视频采样的自回归推理,用于迭代扩展场景并保持上下文感知的一致性;3)可扩展数据引擎:自动化相机姿态估计与任意视频的度量深度预测的视频重建流程,支持大规模、多样化的训练数据收集,无需手动三维标注。综合这些设计,Voyager在视觉质量与几何精度上较现有方法有明显提升,具有广泛的应用前景。
尽管扩散模型在文本到图像生成领域取得了显著成就,但在指令驱动的图像编辑任务中却面临重大挑战。我们的研究揭示了一个核心问题:这些模型在处理涉及大幅布局变化的结构不一致编辑时尤为困难。为弥补这一不足,我们提出了“图像编辑即程序”(IEAP),这是一个基于扩散Transformer(DiT)架构的统一图像编辑框架。IEAP的核心在于采用还原论视角,将复杂的编辑指令分解为一系列原子操作序列。每个操作通过共享同一DiT主干的轻量级适配器实现,并针对特定类型的编辑进行专门化。这些操作由基于视觉-语言模型(VLM)的智能体编程,协同支持任意且结构不一致的变换。通过这种模块化和序列化的编辑方式,IEAP在从简单调整到重大结构变化的各种编辑任务中展现出强大的泛化能力。大量实验表明,IEAP在多种编辑场景下的标准基准测试中显著超越了现有最先进方法。在这些评估中,我们的框架尤其在处理复杂、多步骤指令时,展现了卓越的准确性和语义保真度。代码已发布于https://github.com/YujiaHu1109/IEAP。
大型语言模型(LLMs)在处理可视化任务时常常面临挑战,如绘制图表、图解等,这些任务的成功不仅依赖于代码的正确性,还涉及视觉语义的准确性。现有的指令微调数据集缺乏基于执行的监督,且对迭代代码修正的支持有限,导致生成的图表脆弱且不可靠。我们推出了VisCode-200K,这是一个大规模指令微调数据集,专为基于Python的可视化及自我修正而设计。该数据集包含超过20万个示例,来源包括:(1)来自开源库的已验证绘图代码,配以自然语言指令和渲染后的图表;(2)来自Code-Feedback的4.5万轮多回合修正对话,使模型能够利用运行时反馈来修正错误代码。我们在VisCode-200K上微调Qwen2.5-Coder-Instruct,创建了VisCoder,并在PandasPlotBench上对其进行了评估。VisCoder显著超越了强大的开源基线模型,并接近了如GPT-4o-mini等专有模型的性能。此外,我们采用了一种自我调试评估协议来评估迭代修复,展示了反馈驱动学习在生成可执行、视觉准确代码方面的优势。
尽管基于扩散的模型能够从文本或图像输入生成高质量、高分辨率的视频序列,但在跨帧控制场景光照和视觉外观时,它们缺乏对几何线索的显式整合。为解决这一局限,我们提出了IllumiCraft,一个端到端的扩散框架,接受三种互补输入:(1) 高动态范围(HDR)视频映射,用于精细的光照控制;(2) 合成重光照帧,带有随机化的光照变化(可选地搭配静态背景参考图像),以提供外观线索;(3) 3D点轨迹,捕捉精确的3D几何信息。通过在一个统一的扩散架构中整合光照、外观和几何线索,IllumiCraft生成与用户定义提示对齐的时间一致性视频。它支持背景条件和文本条件的视频重光照,并提供了比现有可控视频生成方法更高的保真度。项目页面:https://yuanze-lin.me/IllumiCraft_page
我们观察到,诸如Qwen-Math、MiMo和Phi-4等强大的大语言模型(LLMs)在预训练阶段便继承了巨大的推理潜能。通过强化学习(RL),这些模型在推理任务上能取得显著进步。近期研究表明,即便仅针对单一问题进行RL训练,也能充分释放这些模型的推理能力。然而,RL不仅成本高昂,且稳定性欠佳,即使是一次性RL训练也需要耗费数百GPU小时。这引发了一个关键问题:是否存在更高效的方法来激发这些强大基础LLMs的推理潜力?在本研究中,我们证明了仅针对一个问题进行批判性微调(Critique Fine-Tuning, CFT)即可有效释放LLMs的推理潜能。我们的方法通过收集模型对单一问题生成的多样化解法,并利用教师LLMs提供详尽批判,构建CFT数据。我们对参数规模从1.5B到14B不等的Qwen和Llama系列模型进行CFT微调,观察到在多种推理任务上性能显著提升。例如,仅用5GPU小时的训练,Qwen-Math-7B-CFT在六个数学基准测试上平均提升了15%,在三个逻辑推理基准上提升了16%。这些成果与RL相比,在计算资源减少20倍的情况下,效果相当甚至更优。消融研究揭示了一次性CFT在不同提示问题上的鲁棒性。这些结果凸显了一次性CFT作为一种简单、通用且计算高效的方法,在释放现代LLMs推理能力方面的优势。
我们提出了Psi-Sampler,这是一个基于序列蒙特卡洛(SMC)的框架,结合了预条件Crank-Nicolson Langevin(pCNL)初始粒子采样方法,旨在实现与基于分数的生成模型在推理阶段的有效奖励对齐。随着从预训练到后训练优化的广泛范式转变,基于分数的生成模型在推理阶段的奖励对齐最近获得了显著关注。这一趋势的核心是将序列蒙特卡洛方法应用于去噪过程。然而,现有方法通常从高斯先验初始化粒子,这未能充分捕捉与奖励相关的区域,导致采样效率降低。我们证明,从奖励感知的后验分布初始化粒子能显著提升对齐性能。为了在高维潜在空间中进行后验采样,我们引入了预条件Crank-Nicolson Langevin(pCNL)算法,该算法结合了维度鲁棒的提议机制与梯度引导的动态过程。这一方法实现了高效且可扩展的后验采样,并在多种奖励对齐任务中持续提升性能,包括布局到图像生成、数量感知生成和审美偏好生成,如我们的实验所展示。
大型语言模型(LLMs)及多模态LLMs在SVG处理方面展现出显著潜力,然而现有基准测试存在现实场景覆盖不足、复杂度分层缺失以及评估范式碎片化等问题。我们推出了SVGenius,一个包含2,377个查询的综合性基准,涵盖理解、编辑与生成三个递进维度。基于24个应用领域的真实数据,并采用系统化的复杂度分层,SVGenius通过8个任务类别和18项指标对模型进行评估。我们对22个主流模型进行了全面测评,这些模型在规模、架构、训练范式及可访问性上各具特色。分析结果表明,尽管专有模型显著优于开源模型,但所有模型均随复杂度提升而表现出系统性性能下降,揭示了当前方法的基础性局限;然而,相较于单纯扩大规模,增强推理能力的训练在克服这些局限上更为有效,尽管风格迁移仍是所有模型类型中最具挑战性的能力。SVGenius首次为SVG处理建立了系统化的评估框架,为开发更强大的矢量图形模型及推动自动化图形设计应用提供了关键洞见。附录及补充材料(包含所有数据与代码)可通过https://zju-real.github.io/SVGenius获取。
我们提出了LayerFlow,一种面向分层感知视频生成的统一解决方案。给定每层提示,LayerFlow能够生成透明前景、纯净背景及融合场景的视频。此外,它还支持多种变体,如分解融合视频或为给定前景生成背景,反之亦然。基于文本到视频的扩散变换器,我们将不同层的视频组织为子片段,并利用层嵌入来区分每个片段及其对应的分层提示。通过这种方式,我们在一个统一框架内无缝支持上述多种变体。针对高质量分层训练视频的缺乏,我们设计了一种多阶段训练策略,以适应带有高质量分层标注的静态图像。具体而言,我们首先使用低质量视频数据训练模型,随后调整运动LoRA使模型兼容静态帧,接着在高质量分层图像与复制粘贴视频数据的混合数据上训练内容LoRA。在推理阶段,我们移除运动LoRA,从而生成具有所需分层的流畅视频。
直接偏好优化(DPO)最近被应用于文本到视频扩散模型的训练后优化技术中。为了获取训练数据,标注者被要求对由独立噪声生成的两段视频提供偏好。然而,这种方法限制了细粒度比较的可能性,并且我们指出,它使标注者倾向于选择低运动片段,因为这些片段通常包含较少的视觉伪影。在本研究中,我们提出了DenseDPO方法,通过三项创新来解决这些不足。首先,我们通过去噪处理真实视频的受损副本来创建用于DPO的视频对,从而生成具有相似运动结构但在局部细节上有所差异的对齐视频对,有效消除了运动偏差。其次,我们利用由此产生的时间对齐性,在短片段而非整个视频上标注偏好,提供了更密集且更精确的学习信号。仅使用三分之一标注数据的情况下,DenseDPO在运动生成方面显著优于基础DPO,同时在文本对齐、视觉质量和时间一致性上与之相当。最后,我们展示了DenseDPO能够利用现成的视觉语言模型(VLMs)实现自动偏好标注:GPT能够准确预测与任务特定微调的视频奖励模型相似的片段级偏好,而基于这些标签训练的DenseDPO在性能上接近使用人工标注的效果。
近期,大型语言模型(LLMs)在需要缜密思考的智商相关领域,如数学与编程,取得了显著进展。然而,从训练后优化的角度提升LLMs在社会领域中的认知发展,仍是一个待深入探索的课题。鉴于社会世界遵循独特的时间线,且相较于主要依赖系统二认知(即谨慎、逐步推理)的数学,它需要更丰富的认知模式融合(从直觉反应(系统一)及表层思考到深思熟虑(系统二)),我们提出了时间感知的分层认知强化学习(TimeHC-RL),以增强LLMs的社会智能。在实验中,我们系统性地探索了提升LLMs社会智能的途径,并通过五种其他训练后范式及两种测试时干预范式,在八个具有多样数据模式的数据集上验证了TimeHC-RL方法的有效性。实验结果表明,相较于广泛采用的系统二强化学习方法,我们提出的TimeHC-RL方法展现出明显优势,它如同为7B基础模型插上了翅膀,使其能够与DeepSeek-R1和OpenAI-O3等先进模型一较高下。此外,从训练后优化与测试时干预两个维度系统性地探索提升LLMs社会智能的过程中,我们还揭示了几项有价值的洞见。
高效生成长序列是大型语言模型面临的关键挑战。尽管近期的稀疏解码方法提升了效率,但它们存在KV缓存错位问题,即近似误差不断累积,导致生成质量下降。本研究提出了一种简单而有效的解决方案——修正稀疏注意力机制(ReSA),该方法将块稀疏注意力与周期性密集修正相结合。通过在固定间隔使用密集前向传递刷新KV缓存,ReSA有效限制了误差累积,保持了与预训练分布的一致性。在数学推理、语言建模及检索任务上的实验表明,ReSA在显著提升效率的同时,实现了近乎无损的生成质量。尤为突出的是,在256K序列长度的解码场景下,ReSA带来了高达2.42倍的端到端加速,使其成为可扩展长上下文推理的实用方案。代码已发布于https://aka.ms/ReSA-LM。
大型语言模型(LLM)代理正在重塑游戏产业,尤其是通过打造更为智能且符合人类偏好的游戏角色。然而,现有的游戏基准测试未能满足实际需求:它们缺乏对不同游戏类型中LLM多样能力的评估,对复杂游戏玩法至关重要的代理模块研究,以及将预训练LLM对齐为游戏代理的微调数据集。为填补这些空白,我们推出了\benchname{},一个旨在训练和评估LLM代理跨多种现实世界视频游戏的基础基准。与现有基准不同,Orak囊括了12款涵盖所有主要类型的流行视频游戏,使得对LLM能力及复杂游戏场景中不可或缺的代理模块进行全面研究成为可能。为支持LLM的一致性评估,我们引入了一个基于模型上下文协议(MCP)的即插即用接口,使LLM能够无缝连接游戏并操控代理模块。此外,我们提出了一个微调数据集,包含跨多种游戏类型的LLM游戏轨迹。Orak提供了一个全面的评估框架,包括通用游戏得分排行榜、LLM竞技场,以及对视觉输入状态、代理策略及微调效果的深入分析,为构建通用游戏代理奠定了基础。代码可在https://github.com/krafton-ai/Orak获取。
本文介绍了TalkingMachines——一个高效框架,它将预训练的视频生成模型转化为实时、音频驱动的人物动画生成器。TalkingMachines通过将音频大语言模型(LLM)与我们的视频生成基础模型相结合,实现了自然的对话体验。我们的主要贡献包括:(1)我们将一个预训练的最先进的图像到视频DiT模型调整为拥有180亿参数的音频驱动虚拟形象生成模型;(2)通过从双向教师模型到稀疏因果自回归学生模型的不对称知识蒸馏,实现了无误差累积的无限视频流;(3)我们设计了一个高吞吐量、低延迟的推理管道,融合了多项关键工程优化,如:(a)将DiT与VAE解码器分离部署于不同设备,(b)利用CUDA流高效重叠设备间通信与计算,(c)消除冗余重计算以最大化帧生成速率。演示视频请访问:https://aaxwaz.github.io/TalkingMachines/。
近期研究表明,大型语言模型(LLMs)在充当评判者时表现出自我偏好偏差,即它们倾向于偏爱自身生成的回答而非其他模型生成的回答。现有方法通常通过计算评判模型对其自身回答与其他模型回答所打分数的差异来衡量这种偏差。然而,这种方法将自我偏好偏差与回答质量混为一谈,因为即使不存在偏差,评判模型生成的高质量回答也可能导致正分数差异。为解决这一问题,我们引入黄金评判作为回答实际质量的代理,并提出DBG评分,该评分通过衡量评判模型对其自身回答的评分与相应黄金评判之间的差异来量化自我偏好偏差。由于黄金评判反映了回答的真实质量,DBG评分有效减少了回答质量对偏差测量的混淆影响。利用DBG评分,我们进行了全面实验,评估了不同版本、规模和推理能力的LLMs中的自我偏好偏差。此外,我们还探讨了影响并有助于缓解自我偏好偏差的两个因素:回答文本风格和评判模型的训练后数据。最后,我们从注意力机制的角度探索了自我偏好偏差的潜在内在机制。我们的代码和数据可在https://github.com/zhiyuanc2001/self-preference获取。
随着大型语言模型(LLMs)的持续进步,对最新且组织良好的基准测试的需求变得日益关键。然而,尽管在数学或代码等领域中特定领域模型的重要性日益增长,许多现有数据集仍分散、难以管理,使得针对特定需求或领域进行定制化评估变得颇具挑战。本文中,我们介绍了BenchHub,一个动态基准测试库,旨在赋能研究者和开发者更有效地评估LLMs。BenchHub汇集并自动分类来自不同领域的基准测试数据集,整合了38个基准中的303K个问题。它设计用于支持持续更新和可扩展的数据管理,从而实现对各种领域或使用场景的灵活且可定制的评估。通过对多种LLM家族进行广泛实验,我们证明了模型性能在特定领域子集间存在显著差异,强调了领域感知基准测试的重要性。我们相信,BenchHub能够促进更好的数据集复用、更透明的模型比较,以及更轻松地识别现有基准中代表性不足的领域,为推进LLM评估研究提供关键基础设施。
近期,生成式人工智能的显著进展极大地推动了风格标注文本到语音合成(CapTTS)领域的发展。然而,由于缺乏标准化、全面的数据集以及对基于CapTTS的下游任务研究有限,将CapTTS应用于实际场景仍面临挑战。为填补这些空白,我们推出了CapSpeech,这是一个专为一系列CapTTS相关任务设计的新基准,包括带声音事件的风格标注文本到语音合成(CapTTS-SE)、口音标注TTS(AccCapTTS)、情感标注TTS(EmoCapTTS)以及聊天代理的文本到语音合成(AgentTTS)。CapSpeech包含了超过1000万对机器标注的音频-文本对及近36万对人类标注的音频-文本对。此外,我们还引入了两个由专业配音演员和经验丰富的音频工程师收集和录制的新数据集,专门针对AgentTTS和CapTTS-SE任务。伴随这些数据集,我们利用自回归和非自回归模型在CapSpeech上进行了全面的实验。结果表明,我们的方法能够实现高保真且高度清晰的语音合成,覆盖了多种说话风格。据我们所知,CapSpeech是目前最大的、为CapTTS相关任务提供全面标注的数据集。这些实验和发现进一步为开发CapTTS系统所面临的挑战提供了宝贵的见解。
扩散模型近期在诸多生成任务中取得了显著成功,如物体移除。然而,现有图像分解方法因依赖掩码先验、静态物体假设及数据集匮乏,难以有效处理半透明或透明层遮挡问题。本文深入探讨了一项新颖任务:Alpha合成图像的层级分解,旨在从单一重叠图像中恢复构成层,特别是在半透明/透明alpha层非线性遮挡条件下。为应对层级模糊性、泛化能力及数据稀缺性等挑战,我们首先推出了AlphaBlend,这是首个大规模高质量透明与半透明层分解数据集,支持六项现实世界子任务(如半透明光斑去除、半透明细胞分解、玻璃器皿分解)。基于此数据集,我们提出了DiffDecompose,一个基于扩散Transformer的框架,它学习在输入图像、语义提示及混合类型条件下可能层分解的后验分布。DiffDecompose不直接回归alpha遮罩,而是执行上下文分解,使模型能在无需逐层监督的情况下预测一个或多个层,并引入层位置编码克隆以保持跨层像素级对应关系。在提出的AlphaBlend数据集及公开的LOGO数据集上的广泛实验验证了DiffDecompose的有效性。代码与数据集将在论文接受后公开。我们的代码将发布于:https://github.com/Wangzt1121/DiffDecompose。
推测解码通过利用小型草稿模型预测多个标记,并借助大型目标模型并行验证这些标记,从而加速大语言模型(LLM)的推理过程。近期研究利用目标模型的隐藏状态来提升草稿模型的预测准确性。然而,现有方法因草稿模型生成特征中的误差累积,导致后续位置草稿标记预测质量下降。本文提出位置专家(PosS)方法,该方法包含多个专为特定位置设计的草稿层,用于在指定位置生成标记。位置专家显著提高了每轮草稿生成中后续位置的标记接受率,因为每位专家仅需专注于处理特定程度的草稿模型特征偏差。在Llama-3-8B-Instruct和Llama-2-13B-chat模型上,跨越六个数据集的实验结果表明,PosS在平均接受长度和加速比方面均有效超越了基线方法。我们的代码库已发布于https://github.com/shrango/PosS。
近期,思维链(CoT)推理的进展提升了复杂视频理解的能力,但现有方法往往难以适应不同视频内容中的领域特定技能(如事件检测、空间关系理解、情感理解)。为解决这一问题,我们提出了视频技能思维链(Video-Skill-CoT,简称Video-SKoT)框架,该框架自动构建并利用技能感知的CoT监督,实现领域自适应的视频推理。首先,我们构建基于技能的CoT标注:从训练问题中提取与领域相关的推理技能,将其聚类为共享的技能分类体系,并为每个视频-问题对创建详细的多步骤CoT推理依据。其次,我们引入了一个技能特定的专家学习框架。每个专家模块专注于一部分推理技能,并通过轻量级适配器使用收集的CoT监督进行训练。我们在三个视频理解基准上验证了所提方法的有效性,Video-SKoT在这些基准上持续超越强基线模型。此外,我们还深入分析了不同CoT标注流程及在多个视频领域中学到的技能之间的对比。
对抗性输入攻击可能导致CLIP嵌入发生显著偏移。这会影响集成CLIP的模型在下游任务中的鲁棒性,例如文本到图像生成模型或大型视觉语言模型。尽管已有一些工作致力于提升CLIP图像编码器的鲁棒性,但文本编码器的鲁棒性仍未被充分探索。本研究填补了这一文献空白。我们提出了LEAF:一种针对文本领域的高效对抗性微调方法,能够扩展到大型CLIP模型。我们的模型显著提升了文本领域的零样本对抗准确性,同时保持了由鲁棒图像编码器提供的视觉性能。当与文本到图像扩散模型结合时,我们能够在对抗噪声下提升生成质量。在多模态检索任务中使用我们鲁棒的CLIP编码器时,相较于标准CLIP模型,我们在对抗噪声下的召回率有所提高。最后,我们展示了鲁棒文本编码器通过直接优化,能够更好地从嵌入中重建输入文本。
近期,基于数值反馈(如标量奖励)的强化学习(RL)显著提升了大型语言模型(LLMs)的复杂推理能力。然而,尽管取得了这些成功,我们发现仅依赖数值反馈的RL面临三个关键挑战:性能瓶颈、自我反思的局限性以及持续失败问题。我们进一步证明,即使在性能达到瓶颈后,通过利用自然语言形式的批评反馈,RL微调模型仍能在持续失败的问题上生成正确的改进方案。基于这一发现,我们提出了Critique-GRPO,一种在线RL框架,它整合了自然语言与数值反馈,以实现有效的策略优化。Critique-GRPO使LLMs能够同时从初始响应和批评引导的改进中学习,同时保持探索性。使用Qwen2.5-7B-Base和Qwen3-8B-Base进行的广泛实验表明,Critique-GRPO在八项具有挑战性的数学、STEM及通用推理任务中,持续优于基于监督学习和RL的微调方法,平均pass@1分数分别提升了约4.5%和5%。值得注意的是,Critique-GRPO甚至超越了在在线RL中融入专家示范的强基线。进一步分析揭示了关于策略探索的两个关键见解:(1)更高的熵并不总能保证从探索中高效学习,(2)更长的响应并不必然带来更有效的探索。
持续学习(Continual Learning, CL)旨在使神经网络能够逐步获取新知识(可塑性)同时保留已有知识(稳定性)。尽管预训练模型(Pre-trained Models, PTMs)在CL中扮演了关键角色,但主流方法为保持稳定性而冻结PTM主干,这限制了其可塑性,尤其是在增量任务中遇到显著领域差异时。相反,若顺序微调整个PTM,则可能引发通用知识的灾难性遗忘,凸显了稳定性与可塑性之间的关键权衡。为应对这一挑战,我们提出了在核心CL过程之前进行PTM适配(Adapting PTMs before the core CL process, ACL)的新框架,该框架通过一个即插即用的适配阶段,在利用现有CL方法(如提示调优)学习每个新任务前,精炼PTM主干。ACL通过将嵌入向量与其原始类别原型对齐,同时远离其他类别,增强了可塑性,理论上与实验均表明其能平衡稳定性与可塑性。大量实验证明,ACL显著提升了CL在各类基准测试及集成方法中的表现,为基于PTM的CL提供了一个通用解决方案。
LLM-as-a-judge 是一种框架,其中大型语言模型(LLM)自动评估另一个LLM的输出。我们提出了定量LLM评判者,通过回归模型将现有LLM评判者的评分与特定领域的人类评分对齐。这些模型通过利用评判者的文本评估和评分进行训练,旨在提升原始评判者的评分准确性。我们展示了四种适用于不同类型绝对和相对反馈的定量评判者,体现了我们框架的通用性和多功能性。相较于监督微调,我们的框架在计算上更为高效,且在人类反馈有限的情况下(这在我们工作的多数应用中预期如此),统计效率更高。我们使用两个基础评判者在四个数据集上对这些主张进行了实证验证。实验结果表明,定量评判者能够通过事后建模有效提升现有评判者的预测能力。
在广泛数据集上训练的大型基础模型展现出跨领域的强大零样本能力。为了在数据和模型规模受限时复制其成功,知识蒸馏已成为将基础模型知识迁移至小型学生网络的标准工具。然而,蒸馏的有效性严重受限于可用的训练数据。本研究针对知识蒸馏中常见的协变量偏移问题,即训练时出现但测试时不存在的虚假特征,提出探讨:当这些虚假特征未知,但存在一个鲁棒的教师模型时,学生模型是否也能对它们变得鲁棒?我们通过引入一种新颖的基于扩散的数据增强策略来解决这一问题,该策略通过最大化教师与学生之间的分歧来生成图像,从而创造出学生难以应对的挑战性样本。实验表明,在CelebA、SpuCo Birds数据集上的最差组和平均组准确率,以及在虚假ImageNet上的虚假mAUC指标,我们的方法在协变量偏移条件下均显著提升,超越了当前最先进的基于扩散的数据增强基线方法。
尽管在图像反演和基于指令的图像编辑方面取得了最新进展,现有方法主要擅长编辑单一、显著的对象,但在处理包含多个实体的复杂场景时表现显著不足。为量化这一差距,我们首先引入了RefEdit-Bench,这是一个基于RefCOCO的严格现实世界基准测试,即使是在数百万样本上训练的基线模型也表现不佳。为克服这一局限,我们提出了RefEdit——一种基于指令的编辑模型,通过我们可扩展的合成数据生成管道进行训练。我们的RefEdit仅使用20,000个编辑三元组进行训练,便超越了基于Flux/SD3模型、在数百万数据上训练的基线模型。跨多个基准的广泛评估表明,我们的模型不仅在指代表达任务中表现出色,还提升了在传统基准上的性能,达到了与闭源方法相当的最先进水平。我们发布了数据与检查点以确保可复现性。
大型语言模型(LLMs)常因其在广泛任务中展现出接近人类的表现以及维持通用对话的能力而备受赞誉。然而,随着自主AI系统的兴起,语言模型在大量应用中执行少量专门任务,且重复性高、变化少,这一趋势正在改变。 我们在此提出,小型语言模型(SLMs)在许多自主系统调用中已足够强大,本质上更为适宜,且必然更具经济性,因此是自主AI的未来。我们的论点基于当前SLMs展现的能力水平、自主系统的常见架构以及语言模型部署的经济性。我们进一步主张,在通用对话能力至关重要的场景下,异构自主系统(即调用多种不同模型的代理)是自然之选。我们探讨了SLMs在自主系统中应用的潜在障碍,并概述了一个通用的LLM到SLM代理转换算法。 作为价值声明,我们的立场强调了从LLMs部分转向SLMs对AI代理行业运营和经济影响的重大意义。我们旨在激发关于有效利用AI资源的讨论,并希望推动降低当前AI成本的努力。我们呼吁对本文立场提出贡献与批评,并承诺将所有相关通信发布于https://research.nvidia.com/labs/lpr/slm-agents。
流程图是可视化决策过程的关键工具。然而,其非线性结构及复杂的视觉-文本关系使得利用大语言模型(LLMs)进行解读颇具挑战,视觉-语言模型在分析此类图表时常常会虚构不存在的连接与决策路径。这导致在物流、医疗和工程等关键领域中,自动化流程图处理的可靠性大打折扣。我们引入了细粒度流程图归因任务,旨在追踪支撑LLM对流程图回应的具体组件。通过流程图归因,确保了LLM预测的可验证性,并通过将生成响应与流程图结构相链接,提升了可解释性。我们提出了FlowPathAgent,一种神经符号代理,它通过基于图的推理执行细粒度的事后归因。该代理首先分割流程图,将其转化为结构化的符号图,随后采用代理方法动态与图交互,以生成归因路径。此外,我们推出了FlowExplainBench,一个新颖的基准测试,用于评估跨多种风格、领域和问题类型的流程图归因。实验结果表明,FlowPathAgent在流程图问答任务中有效减少了LLM回答中的视觉幻觉现象,在我们提出的FlowExplainBench数据集上,比强基线模型高出10-14%。
剪枝技术近期被广泛采用,以减少大规模语言模型(LLMs)的参数规模并提升推理效率。主流的剪枝方法多依赖于统一的层级剪枝策略,这在较高稀疏度下往往导致性能显著下降。鉴于LLMs中不同层贡献度的差异,近期研究已转向非均匀层级剪枝。然而,这些方法常依赖预设值,可能导致性能未达最优。为克服这些局限,我们提出了一种名为动态层级剪枝(DLP)的新方法。该方法通过整合模型权重与输入激活信息,自适应地确定各层相对重要性,并据此分配剪枝率。实验结果显示,DLP在多种LLMs上,于高稀疏度下有效保持了模型性能。具体而言,在70%稀疏度下,相较于现有最先进方法,DLP将LLaMA2-7B的困惑度降低了7.79,平均准确率提升了2.7%。此外,DLP兼容多种现有LLM压缩技术,并能无缝融入参数高效微调(PEFT)流程。我们已在https://github.com/ironartisan/DLP发布代码,以促进未来研究。
近期,长视频-语言理解基准推动了视频大型多模态模型(Video-LMMs)的发展。然而,标注良好的长视频稀缺,导致时长一小时的视频大语言模型(Video-LLMs)训练研究不足。为填补这一空白,我们推出了VideoMarathon,一个大规模的长达一小时视频指令跟随数据集。该数据集包含约9,700小时的长视频,来源广泛,每段视频时长从3分钟到60分钟不等。具体而言,它包含了330万对高质量问答对,涵盖六个基本主题:时序性、空间性、物体、动作、场景和事件。与现有视频指令数据集相比,VideoMarathon显著将训练视频时长延长至1小时,并支持22项需要短期和长期视频理解能力的多样化任务。基于VideoMarathon,我们提出了Hour-LLaVA,一个强大且高效的视频-语言模型,适用于小时级别的视频-语言建模。通过引入记忆增强模块,它能够以每秒1帧的采样率进行长达一小时的视频训练与推理,该模块自适应地整合了用户问题相关及时空信息丰富的语义,源自缓存的完整视频上下文。实验结果显示,Hour-LLaVA在多个长视频-语言基准测试中表现最佳,验证了VideoMarathon数据集的高质量及Hour-LLaVA模型的优越性。
基于大型语言模型(LLMs)构建并部署于多智能体配置中的自主AI系统,正在重新定义企业和社会领域中的智能自主性、协作与决策。本综述对基于LLM的自主多智能体系统(AMAS)中的信任、风险与安全管理(TRiSM)进行了结构化分析。首先,我们探讨了自主AI的概念基础,其与传统AI智能体在架构上的差异,以及支持可扩展、工具使用自主性的新兴系统设计。随后,通过治理、可解释性、模型运维(ModelOps)及隐私/安全四大支柱,详细阐述了自主AI框架中的TRiSM,每一支柱均针对自主LLMs进行了情境化分析。我们识别了独特的威胁向量,并引入了一套全面的风险分类体系,辅以展示现实世界漏洞的案例研究。此外,本文还调查了分布式LLM智能体系统中的信任构建机制、透明度与监督技术,以及最先进的可解释性策略。同时,回顾了评估信任、可解释性及以人为中心性能的指标,并指出了开放基准测试的挑战。通过加密、对抗防御及遵守不断演进的AI法规,解决了安全与隐私问题。文章最后提出了负责任自主AI的发展路线图,建议研究新兴多智能体系统如何与稳健的TRiSM原则对齐,以实现安全、可问责且透明的部署。
高温超导材料的发现对人类工业与日常生活具有重大意义。近年来,利用人工智能(AI)预测超导转变温度的研究日益流行,多数工具声称能达到极高的预测精度。然而,该领域缺乏广泛认可的基准数据集,严重阻碍了不同AI算法间的公平比较,也制约了这些方法的进一步发展。本研究提出了HTSC-2025,一个常压高温超导基准数据集。该数据集全面汇集了理论物理学家基于BCS超导理论在2023至2025年间预测发现的超导材料,包括著名的X_2YH_6体系、钙钛矿MXH_3体系、M_3XH_8体系、由LaH_{10}结构演化而来的笼状BCN掺杂金属原子体系,以及从MgB_2演化而来的二维蜂窝结构体系。HTSC-2025基准已开源发布于https://github.com/xqh19970407/HTSC-2025,并将持续更新。此基准对于加速基于AI的超导材料发现具有重要价值。
有效提升大语言模型的推理能力,利用强化学习(RL)仍是一项关键挑战。现有方法主要采用两种对比鲜明的优势估计粒度:令牌级方法(如PPO)旨在提供细粒度的优势信号,但由于训练精确的批评模型困难,导致估计不准确。另一方面,轨迹级方法(如GRPO)仅依赖于最终奖励的粗粒度优势信号,导致信用分配不精确。为克服这些局限,我们提出了分段策略优化(SPO),一种新颖的RL框架,它利用中间粒度的分段级优势估计,在提供比轨迹级方法更精确的信用分配的同时,所需估计点少于令牌级方法,从而无需批评模型即可基于蒙特卡洛(MC)实现准确的优势估计。SPO包含三个创新策略的组件:(1)灵活的分段划分;(2)精确的分段优势估计;(3)利用分段优势进行策略优化,包括一种新颖的概率掩码策略。我们进一步将SPO实例化为两种具体场景:(1)SPO-chain用于短链式思维(CoT),采用基于切点的划分和链式优势估计,在GSM8K上相比PPO和GRPO实现了6-12个百分点的准确率提升。(2)SPO-tree用于长链式思维,采用基于树状的优势估计,显著降低了MC估计的成本,在MATH500的2K和4K上下文评估中,相比GRPO实现了7-11个百分点的提升。我们的代码已公开于https://github.com/AIFrameResearch/SPO。
目标指代旨在检测图像中所有与给定自然语言描述相匹配的对象。我们认为,一个鲁棒的目标指代模型应当具备基础性,即其预测既应可解释,又需忠实于视觉内容。具体而言,它应满足两个关键特性:1)可验证性,通过生成可解释的推理过程来证明其预测,并明确将其与视觉证据相关联;2)可信赖性,当图像中无对象符合给定描述时,能够学会放弃预测。然而,大多数方法将指代视为直接的边界框预测任务,提供的可解释性有限,且在拒绝无匹配对象的描述时表现欠佳。在本研究中,我们提出了Rex-Thinker模型,它将目标指代明确表述为一种链式思维(CoT)推理任务。给定一个指代表达式,我们首先识别出所有与所指对象类别对应的候选实例。随后,Rex-Thinker对每个候选对象进行逐步推理,评估其是否匹配给定表达式,最终做出预测。为支持这一范式,我们通过在HumanRef数据集上提示GPT-4o,构建了一个大规模CoT风格的指代数据集HumanRef-CoT。每个推理轨迹遵循规划、行动和总结的结构化格式,使模型能够学习对候选对象进行分解且可解释的推理。接着,我们分两阶段训练Rex-Thinker:首先进行冷启动的监督微调,教导模型如何执行结构化推理;随后基于GRPO的强化学习,以提高准确性和泛化能力。实验表明,我们的方法在域内评估中,在精度和可解释性上均优于标准基线,同时在拒绝幻觉输出和域外设置中的强泛化能力方面也展现出改进。
持续学习(Continual Learning, CL)的研究旨在赋予神经网络逐步学习与适应的能力。这一探索的核心在于解决稳定性与可塑性之间的两难问题,即如何在保留已学知识的同时有效获取新知识之间找到平衡。尽管众多CL方法致力于实现这一权衡,但它们往往忽视了网络架构对稳定性和可塑性的影响,将权衡局限于参数层面。本文深入探讨了在架构层面上稳定性与可塑性之间的冲突,揭示出在同等参数约束下,更深的网络展现出更好的可塑性,而更宽的网络则具备更优的稳定性。为解决这一架构层面的难题,我们提出了一种名为Dual-Arch的新颖框架,作为CL的插件组件。该框架充分利用了两个独立且互补的网络的优势:一个专注于可塑性,另一个则致力于稳定性。每个网络均采用专门设计且轻量级的架构,以契合其特定目标。大量实验表明,Dual-Arch不仅提升了现有CL方法的性能,还在参数规模上实现了高达87%的压缩。
出版物数据库依赖于从多样化的网络资源中准确提取元数据,然而网页布局和数据格式的差异给元数据提供商带来了挑战。本文介绍了CRAWLDoc,一种用于链接网页文档上下文排序的新方法。从出版物的URL(如数字对象标识符)出发,CRAWLDoc获取着陆页及所有链接的网络资源,包括PDF文件、ORCID个人资料和补充材料。它将这些资源与锚文本及URL一同嵌入到一个统一的表示中。为了评估CRAWLDoc,我们创建了一个新的、手工标注的数据集,包含来自计算机科学领域六大顶级出版商的600篇出版物。我们的方法CRAWLDoc展示了跨出版商和数据格式的稳健且独立于布局的相关文档排序能力,为从具有多种布局和格式的网页文档中改进元数据提取奠定了基础。我们的源代码和数据集可通过https://github.com/FKarl/CRAWLDoc访问。
降低视觉语言模型(VLMs)风险的一种方法是剔除其训练数据中的危险样本。然而,当有害图像被分割成看似无害的小块,并分散在众多训练样本中时,这种数据过滤措施极易被绕过。VLMs在训练过程中可能学会将这些碎片拼接起来,并在推理时根据完整图像或文本引用生成有害响应。例如,若模型在训练时接触了血腥场景的图像块,且这些块与“安全”描述配对,VLMs随后可能会将完整图像或对该场景的文本引用描述为“安全”。我们将VLMs实现此类攻击的核心能力定义为视觉拼接——即整合散布于多个共享相同文本描述的训练样本中的视觉信息的能力。在本研究中,我们首先在三个数据集上展示了常见开源VLMs的视觉拼接能力,每个图像均标注有唯一的合成ID:我们将每对(图像,ID)分割成不同粒度的{(图像块,ID)}对进行微调,发现调整后的模型能够从完整图像或文本引用中准确表达出正确的ID。基于此,我们通过使用危险图像的图像块,并将ID替换为“安全”或“不安全”等文本描述,模拟了上述对抗性数据投毒场景,展示了有害内容如何通过图像块规避过滤,随后通过视觉拼接被重建,从而对VLM的安全性构成严重威胁。代码可在https://github.com/ZHZisZZ/visual-stitching获取。
由于光照条件的不一致性和瞬态干扰物的存在,从野外图像进行三维重建仍是一项具有挑战性的任务。现有方法通常依赖启发式策略来处理低质量的训练数据,这些策略往往难以生成稳定且一致的重建结果,常导致视觉伪影的出现。在本研究中,我们提出了非对称双3DGS框架,该框架巧妙地利用了这些伪影的随机性特征:由于微小的随机性,它们在不同训练运行中会有所变化。具体而言,我们的方法并行训练两个3D高斯溅射(3DGS)模型,通过施加一致性约束,促使模型在可靠的场景几何上收敛,同时抑制不一致的伪影。为了防止两个模型因确认偏误而陷入相似的失败模式,我们引入了一种分叉掩码策略,应用两种互补的掩码:多线索自适应掩码和自监督软掩码,从而引导两个模型进行非对称训练,减少共享的错误模式。此外,为了提高模型训练的效率,我们提出了一种轻量级变体——动态EMA代理,该变体将其中一个模型替换为动态更新的指数移动平均(EMA)代理,并采用交替掩码策略以保持分叉性。在具有挑战性的真实世界数据集上进行的大量实验表明,我们的方法在保持高效率的同时,始终优于现有方法。代码及训练模型将予以公开。
基于流的潜在生成模型,如Stable Diffusion 3,能够生成质量卓越的图像,甚至实现了逼真的文本到图像生成。其卓越性能表明,这些模型也应成为逆成像问题的强大先验,但这一方法尚未达到同等保真度。主要障碍包括:(i) 编码到低维潜在空间使得基础(正向)映射非线性;(ii) 数据似然项通常难以处理;(iii) 学习到的生成模型在推理过程中难以恢复罕见、非典型的数据模式。我们提出了FLAIR,一种无需训练的新型变分框架,它利用基于流的生成模型作为逆问题的先验。为此,我们引入了一种与退化类型无关的流匹配变分目标,并结合确定性轨迹调整以恢复非典型模式。为确保与观测数据的精确一致性,我们将数据保真度和正则化项的优化解耦。此外,我们提出了一种时间依赖的校准方案,其中正则化强度根据离线精度估计进行调节。标准成像基准测试结果表明,FLAIR在重建质量和样本多样性方面始终优于现有的基于扩散和流的方法。
多步符号推理对于提升金融任务的下游性能至关重要。然而,系统评估这一能力的基准尚显不足。现有数据集如FinQA和ConvFinQA仅监督最终数值答案,而未评估中间推理步骤。为此,我们推出了FinChain,这是首个专为可验证的思维链(CoT)金融推理设计的符号基准。FinChain涵盖12个金融领域的54个主题,每个主题提供五种参数化模板,这些模板在推理复杂性和所需领域专业知识上各不相同。每个数据集实例均包含可执行的Python跟踪,便于自动生成大量训练数据,并易于适应其他领域。我们还引入了ChainEval,这是一种用于自动评估最终答案和中间推理的新指标。在我们的数据集上对30个大型语言模型进行基准测试,发现即使是当前最先进的模型,在多步金融推理方面仍有显著提升空间。FinChain的所有模板和评估指标均可在https://github.com/mbzuai-nlp/finchain获取。
为复杂的视听场景生成精确的声音具有挑战性,尤其是在存在多个物体和声源的情况下。本文提出了一种{\em 交互式物体感知音频生成}模型,该模型将声音生成基于用户选择的图像中的视觉物体。我们的方法将物体中心学习整合到条件潜在扩散模型中,通过多模态注意力学习将图像区域与其对应的声音关联起来。在测试时,我们的模型利用图像分割技术,使用户能够在{\em 物体}级别交互式生成声音。我们从理论上验证了我们的注意力机制在功能上近似于测试时的分割掩码,确保生成的音频与所选物体保持一致。定量和定性评估表明,我们的模型优于基线方法,在物体与其关联声音之间实现了更好的对齐。项目页面:https://tinglok.netlify.app/files/avobject/
数据标注是一项耗时且成本高昂的任务,但却是监督式机器学习不可或缺的环节。主动学习(Active Learning, AL)作为一种成熟的方法,通过迭代选择最具信息量的未标注样本供专家标注,从而减少人工标注的工作量,并提升整体分类性能。尽管主动学习已存在数十年,但在实际应用中仍鲜见其身影。针对自然语言处理(NLP)领域的两项社区网络调查显示,阻碍实践者采用主动学习的两大主要原因在于:一是配置主动学习的复杂性,二是对其有效性的信任缺失。我们推测,这两大原因背后有着共同的症结:主动学习庞大的超参数空间。这一大多未被深入探索的超参数空间,往往导致实验结果误导性强且难以复现。在本研究中,我们首先构建了一个包含超过460万种超参数组合的大型网格,其次记录了迄今为止最大规模的主动学习研究中所有组合的表现,最后分析了各超参数对实验结果的影响。最终,我们针对每个超参数的影响给出了建议,揭示了具体主动学习策略实施方式带来的惊人影响,并设计了一套以最小计算成本实现可复现主动学习实验的研究方案,为未来开展更具可复现性和可信度的主动学习研究贡献力量。
随着多模态大语言模型(MLLMs)的迅猛发展,它们正越来越多地被部署为能够完成复杂计算机任务的自主计算机使用代理。然而,一个紧迫的问题随之而来:为对话场景中通用MLLMs设计并对其安全风险原则进行对齐的方法,能否有效迁移至现实世界的计算机使用场景?现有针对基于MLLM的计算机使用代理安全风险评估的研究存在若干局限:要么缺乏真实的交互环境,要么仅狭隘地关注一种或少数几种特定风险类型。这些局限忽视了现实环境的复杂性、多变性和多样性,从而限制了对计算机使用代理进行全面风险评估的能力。为此,我们引入了RiOSWorld,一个旨在评估基于MLLM的代理在现实世界计算机操作中潜在风险的基准。我们的基准涵盖了492个涉及各类计算机应用的风险任务,包括网络、社交媒体、多媒体、操作系统、电子邮件及办公软件。我们根据风险来源将这些风险划分为两大类:(i) 用户引发的风险与(ii) 环境风险。在评估方面,我们从两个角度考察安全风险:(i) 风险目标意图与(ii) 风险目标完成度。通过在RiOSWorld上对多模态代理进行广泛实验,我们发现当前的计算机使用代理在现实场景中面临显著的安全风险。我们的研究结果强调了在现实世界计算机操作中对计算机使用代理进行安全对齐的必要性与紧迫性,为开发可信赖的计算机使用代理提供了宝贵的洞见。我们的基准已公开于https://yjyddq.github.io/RiOSWorld.github.io/。