每日精选AI研究论文及翻译
人工智能(AI)正在加速推动科学研究范式的变革,不仅提升了研究效率,还促进了创新突破。我们推出了NovelSeek,这是一个统一的闭环多智能体框架,旨在跨多个科学研究领域开展自主科学研究(ASR),使研究人员能够以前所未有的速度和精度解决这些领域中的复杂问题。NovelSeek凸显了三大关键优势:1)可扩展性:NovelSeek已在12项科学研究任务中展现了其广泛适用性,能够生成创新思路以提升基线代码的性能。2)交互性:NovelSeek在自动化端到端流程中提供了人机专家反馈与多智能体交互的接口,实现了领域专家知识的无缝融合。3)高效性:与人类努力相比,NovelSeek在多个科学领域以显著减少的时间成本取得了令人瞩目的性能提升。例如,在反应产率预测中,仅用12小时就从27.6%提升至35.4%;在增强子活性预测中,仅处理4小时,准确率就从0.52提升至0.79;在二维语义分割中,仅30小时,精度就从78.8%提升至81.0%。
指令遵循对于使大型语言模型(LLMs)与用户意图保持一致至关重要。尽管近期面向推理的模型在复杂数学问题上展现出令人瞩目的性能,但其遵循自然语言指令的能力仍待深入探索。本研究中,我们推出了MathIF,一个专门用于评估数学推理任务中指令遵循能力的基准。我们的实证分析揭示了一个持续存在的矛盾:在提升推理能力与保持可控性之间,那些推理更为有效的模型往往难以遵从用户指示。我们发现,经过提炼的长链思维调整或采用推理导向强化学习训练的模型,在指令遵循方面表现下降,尤其是在生成长度增加时。此外,我们证明,即便是简单的干预措施也能部分恢复模型的服从性,尽管这可能会牺牲推理性能。这些发现凸显了当前LLM训练范式中的一个根本性矛盾,并激发了对更具指令意识的推理模型的需求。我们已在https://github.com/TingchenFu/MathIF 发布了代码与数据。
近期,大规模语言模型(LLMs)通过大规模强化学习(RL)展现了卓越的推理能力。然而,如何利用RL算法来增强LLMs在多工具协作推理中的有效性,仍是一个待解决的挑战。本文提出了Tool-Star,一个基于RL的框架,旨在赋能LLMs在逐步推理过程中自主调用多种外部工具。Tool-Star整合了六类工具,并在数据合成与训练中融入了系统性设计。针对工具使用数据稀缺的问题,我们提出了一种通用的工具集成推理数据合成流程,该流程结合了工具集成提示与基于提示的采样,以自动且可扩展地生成工具使用轨迹。随后,通过质量归一化与难度感知分类过程,过滤低质量样本,并将数据集从易到难组织。此外,我们提出了一个两阶段训练框架,以增强多工具协作推理能力:首先,通过冷启动微调,引导LLMs探索工具调用反馈中的推理模式;其次,采用多工具自我批评RL算法,配合层次化奖励设计,强化奖励理解并促进工具间的有效协作。在超过10个具有挑战性的推理基准上的实验分析,凸显了Tool-Star的有效性与高效性。代码已发布于https://github.com/dongguanting/Tool-Star。
链式思维推理显著提升了大型语言模型(LLMs)在多个领域的表现。然而,这一推理过程仅限于文本空间,限制了其在视觉密集型任务中的有效性。为解决这一局限,我们提出了像素空间推理的概念。在这一新颖框架下,视觉语言模型(VLMs)配备了一系列视觉推理操作,如放大和选择帧。这些操作使VLMs能够直接检查、询问并从视觉证据中推断,从而提升视觉任务的推理准确性。在VLMs中培养此类像素空间推理能力面临显著挑战,包括模型初始能力的不平衡及其对新引入像素空间操作的抵触。我们通过两阶段训练方法应对这些挑战。第一阶段采用合成推理轨迹的指令微调,使模型熟悉新的视觉操作。随后,强化学习(RL)阶段利用好奇心驱动的奖励机制,平衡像素空间推理与文本推理之间的探索。借助这些视觉操作,VLMs能够与复杂视觉输入(如信息丰富的图像或视频)互动,主动收集必要信息。我们证明,该方法显著提升了VLMs在多种视觉推理基准上的表现。我们的7B模型\model在V* bench上达到84%,在TallyQA-Complex上达到74%,在InfographicsVQA上达到84%,创下了开源模型迄今为止的最高准确率。这些结果凸显了像素空间推理的重要性及我们框架的有效性。
近期,多模态生成模型的进展在基于指令的图像编辑领域取得了显著突破。然而,尽管这些模型能够生成视觉上可信的输出,它们在基于知识的推理编辑任务上的能力仍待深入探索。本文中,我们推出了KRIS-Bench(基于知识的图像编辑系统推理基准),这是一个诊断性基准,旨在通过认知科学的视角评估模型。借鉴教育理论,KRIS-Bench将编辑任务划分为三类基础知识类型:事实性、概念性和程序性。基于此分类法,我们设计了涵盖7个推理维度的22项代表性任务,并发布了1,267个高质量标注的编辑实例。为支持细粒度评估,我们提出了一套综合评估协议,其中包含一项新颖的知识合理性度量标准,该标准通过知识提示增强,并经过人类研究校准。对10个最先进模型的实证研究揭示了在推理性能上的显著差距,强调了以知识为中心的基准对于推动智能图像编辑系统发展的必要性。
长视频理解已成为现实应用中的一项关键能力,如视频监控、会议摘要、教育讲座分析及体育赛事转播等领域。然而,对于视频大模型(VideoLLMs)而言,这一任务仍面临计算上的巨大挑战,主要受限于两大瓶颈:一是顺序视频解码,即将原始比特流转换为RGB帧的过程,对于长达一小时的视频输入,耗时可达一分钟;二是大模型推理时需预先填充多达数百万个令牌,导致高延迟与内存占用。为应对这些挑战,我们提出了QuickVideo,一种系统与算法协同设计,显著加速长视频理解,以支持实时下游应用。该方案包含三大创新点:QuickDecoder,一种基于CPU的并行视频解码器,通过将视频分割为关键帧对齐的区间并发处理,实现2至3倍的加速;QuickPrefill,一种内存高效的预填充方法,利用KV缓存剪枝技术,以更少的GPU内存支持更多帧;以及一种重叠方案,使CPU视频解码与GPU推理并行进行。这些组件共同作用,将长视频输入的推理时间减少了一分钟,即便在有限硬件条件下也能实现可扩展、高质量的视频理解。实验表明,QuickVideo能够适应不同时长与采样率,使长视频处理在实践中变得可行。
扩散Transformer已成为视觉生成模型的基础,但其可扩展性受到大规模超参数(HP)调优高成本的限制。最近,针对普通Transformer提出的最大更新参数化(muP)方法,实现了从小型到大型语言模型的稳定HP迁移,并显著降低了调优成本。然而,普通Transformer的muP是否适用于架构和目标不同的扩散Transformer仍不明确。在本研究中,我们将标准muP推广至扩散Transformer,并通过大规模实验验证其有效性。首先,我们严格证明了包括DiT、U-ViT、PixArt-alpha和MMDiT在内的主流扩散Transformer的muP与普通Transformer一致,使得现有muP方法可直接应用。基于这一结果,我们系统性地展示了DiT-muP具备稳健的HP可迁移性。值得注意的是,采用迁移学习率的DiT-XL-2-muP比原版DiT-XL-2实现了2.9倍的收敛速度提升。最后,我们通过在文本到图像生成任务中将PixArt-alpha从0.04B扩展至0.61B,以及将MMDiT从0.18B扩展至18B,验证了muP的有效性。在这两种情况下,采用muP的模型均超越了各自的基线,同时仅需极小的调优成本——PixArt-alpha仅需一次训练运行的5.5%,而MMDiT-18B的调优成本仅为人类专家消耗的3%。这些成果确立了muP作为扩展扩散Transformer的原则性且高效框架的地位。
在本研究中,我们提出了LLaDA-V,一种纯粹基于扩散模型的多模态大语言模型(MLLM),它通过将视觉指令微调与掩码扩散模型相结合,标志着对当前多模态方法中占主导地位的自回归范式的突破。LLaDA-V建立在LLaDA这一代表性的大语言扩散模型基础之上,整合了视觉编码器及MLP连接器,后者将视觉特征映射至语言嵌入空间,从而实现了有效的多模态对齐。我们的实证研究揭示了几项引人注目的发现:首先,尽管LLaDA-V在纯文本任务上的表现弱于LLaMA3-8B和Qwen2-7B等同类模型,但其在多模态任务中展现出了令人期待的性能。在相同指令数据训练下,LLaDA-V在多模态任务中与LLaMA3-V竞争激烈,且具备更优的数据扩展性,同时缩小了与Qwen2-VL的性能差距,这验证了其架构在多模态任务中的有效性。其次,与现有的混合自回归-扩散模型及纯扩散型MLLM相比,LLaDA-V在多模态理解任务中达到了最先进的性能水平。我们的研究结果表明,大语言扩散模型在多模态情境下展现出潜力,值得在未来的研究中进一步探索。项目页面及代码详见:https://ml-gsai.github.io/LLaDA-V-demo/。
尽管大规模强化学习(RL)在推理领域取得了最新进展,但构建高性能推理模型的训练方案仍不明确。前沿模型(如DeepSeek-R1)的关键实现细节,包括数据筛选策略和RL训练方案,往往被省略。此外,近期研究表明,对于较小模型,蒸馏方法仍比RL更为有效。在本研究中,我们证明大规模RL能显著增强中小型强模型的推理能力,其成果超越了基于蒸馏的最先进模型。我们通过大量消融实验系统研究了RL训练过程,并提出了一种简单而有效的方法:先对仅数学提示进行训练,再对仅代码提示进行训练。值得注意的是,我们发现仅数学RL不仅显著提升了强蒸馏模型在数学基准上的表现(例如,7B/14B模型在AIME 2025上分别提升了14.6%/17.2%),还提升了代码推理任务的表现(例如,7B/14B模型在LiveCodeBench上分别提升了6.8%/5.8%)。此外,延长的仅代码RL迭代进一步提高了代码基准上的性能,而对数学结果的影响微乎其微或没有影响。我们开发了一个稳健的数据筛选管道,用于收集具有高质量、可验证答案和测试用例的挑战性提示,以支持跨领域的基于验证的RL。最后,我们识别出关键的实验洞察,包括逐步增加响应长度的课程学习以及策略内参数更新的稳定效果。我们发现,RL不仅激发了模型在预训练和监督微调(如蒸馏)期间获得的基础推理能力,还突破了模型推理能力的极限,使其能够解决之前无法解决的问题。
视觉生成模型在根据文本提示创建逼真图像方面取得了显著进展,但在处理涉及多个对象及其精确空间关系和属性的复杂提示时仍面临挑战。有效处理此类提示需要对语义内容和空间布局进行显式推理。我们提出了GoT-R1框架,该框架应用强化学习来增强视觉生成中的语义-空间推理能力。基于生成思维链方法,GoT-R1通过精心设计的强化学习,使模型能够自主发现超越预定义模板的有效推理策略。为此,我们提出了一个双阶段多维奖励框架,利用多模态大语言模型(MLLMs)评估推理过程和最终输出,从而在整个生成流程中实现有效监督。该奖励系统以统一的方式评估语义对齐、空间准确性和视觉质量。实验结果表明,在T2I-CompBench基准测试中,特别是在涉及精确空间关系和属性绑定的组合任务上,GoT-R1取得了显著提升。通过成功将复杂的推理能力迁移到视觉生成领域,GoT-R1推动了图像生成技术的前沿发展。为促进未来研究,我们在https://github.com/gogoduan/GoT-R1公开了代码和预训练模型。
风险规避型强化学习在多个高风险领域中得到应用。与旨在最大化期望收益的经典强化学习不同,风险规避型智能体选择能够最小化风险的策略,有时甚至牺牲部分期望价值。这些偏好可以通过效用理论来框架化。我们特别关注指数效用函数的情形,在此框架下,我们能够推导出贝尔曼方程,并只需稍作修改即可应用多种强化学习算法。然而,这些方法因过程中需频繁进行指数计算而面临数值不稳定的问题。为解决这一难题,我们引入了一种基于Itakura-Saito散度的数值稳定且数学严谨的损失函数,用于学习状态价值函数和动作价值函数。我们通过理论与实证双重角度,将所提出的损失函数与现有替代方案进行了对比评估。在实验部分,我们探讨了多种金融场景,其中一些场景具有已知的解析解,结果表明我们的损失函数表现优于其他方案。
训练稳健的检索和重排序模型通常依赖于大规模的检索数据集;例如,BGE集合包含了来自多种数据源的160万条查询-段落对。然而,我们发现某些数据集可能会对模型效果产生负面影响——从BGE集合中剔除15个数据集中的8个,训练集规模缩减了2.35倍,却使BEIR上的nDCG@10提升了1.0分。这促使我们深入审视训练数据的质量,特别关注“假阴性”问题,即相关段落被错误标记为不相关的情况。我们提出了一种简单且经济高效的方法,利用级联大语言模型(LLM)提示来识别并重新标注困难负样本。实验结果表明,将假阴性重新标注为真阳性后,E5(基础版)和Qwen2.5-7B检索模型在BEIR上的nDCG@10分别提升了0.7至1.4分,在零样本AIR-Bench评估中提升了1.7至1.8分。对于基于重新标注数据微调的重排序模型,如Qwen2.5-3B在BEIR上的表现,也观察到了类似的提升。级联设计的可靠性进一步得到了人工标注结果的支持,我们发现GPT-4o的判断与人类标注者的一致性远高于GPT-4o-mini。
生成式人工智能(GenAI)在自动化日常图像编辑任务方面展现出巨大潜力,尤其是在2025年3月25日GPT-4o发布之后。然而,人们最常希望编辑的主题是什么?他们希望执行哪些类型的编辑操作(例如,移除或风格化主体)?人们更倾向于可预测结果的精确编辑,还是高度创意的编辑?通过理解现实世界中的编辑请求特征以及自由职业照片编辑高手所做出的相应编辑,我们能否为改进基于AI的编辑器汲取经验,并确定当前AI编辑器能够成功处理哪些类型的请求?在本篇论文中,我们通过分析Reddit社区过去12年(2013-2025)收集的83,000条请求及对应的305,000次PSR高手编辑,开展了一项独特的研究来解答这些问题。根据人类评分,仅有约33%的请求能够被最佳AI编辑器(包括GPT-4o、Gemini-2.0-Flash、SeedEdit)满足。有趣的是,AI编辑器在需要精确编辑的低创意请求上表现不如在开放任务上。它们往往难以保持人物和动物的身份特征,并频繁进行非请求的修饰。另一方面,视觉语言模型(VLM)评判者(如o1)与人类评判者的表现不同,可能更偏好AI编辑而非人类编辑。代码及定性示例可访问:https://psrdataset.github.io。
大型语言模型(LLMs)通过链式思维(CoT)推理在数学任务上取得了显著进展。然而,现有的数学CoT数据集常因专家省略中间步骤而出现思维跳跃,这对模型的学习与泛化能力产生了负面影响。我们提出了CoT思维跳跃桥接任务,旨在自动检测跳跃并生成缺失的中间推理步骤,以恢复CoT的完整性与连贯性。为此,我们基于结构化ScaleQuestMath数据集构建了专门的训练数据集ScaleQM+,并训练了CoT-Bridge来桥接思维跳跃。通过在数学推理基准上的全面实验,我们证明,在桥接后的数据集上微调的模型持续优于在原始数据集上训练的模型,在NuminaMath上提升高达+5.87%。我们的方法有效提升了蒸馏数据的效果(+3.02%),并为强化学习提供了更好的起点(+3.1%),作为一个即插即用的模块,与现有优化技术兼容。此外,CoT-Bridge在跨域逻辑推理任务上展现了更好的泛化能力,证实了增强推理完整性具有广泛的应用价值。
大型推理模型(LRMs),如OpenAI o1和DeepSeek-R1,通过生成长链思维显著提升了其推理能力,在多种任务中展现出卓越性能。然而,这种性能提升是以生成过程中冗余推理大幅增加为代价的,导致高计算开销并加剧了过度思考的问题。尽管现有众多方法旨在解决过度思考问题,但它们往往依赖外部干预。本文提出了一种新颖框架——自制动调优(SBT),该框架从允许模型自我调节其推理过程的角度出发,从而消除对外部控制机制的依赖。我们基于标准答案构建了一套过度思考识别指标,并设计了一种系统方法来检测冗余推理。此方法能准确识别推理轨迹中的不必要步骤,并为学习自我调节行为生成训练信号。在此基础上,我们开发了一套完整的自适应推理长度数据构建策略,并引入了一种创新的制动提示机制,使模型能够自然地学习在适当点终止推理。在数学基准测试(AIME、AMC、MATH500、GSM8K)上的实验表明,我们的方法在保持与无约束模型相当准确性的同时,最多可减少60%的令牌消耗。
尽管视频扩散变换器(DiT)模型展现出卓越的生成质量,但其实际部署却因庞大的计算需求而严重受限。这种低效性源于两大挑战:自注意力机制相对于令牌长度的二次方复杂度,以及扩散模型的多步特性。为应对这些局限,我们提出了Jenga,一种创新的推理流程,它结合了动态注意力裁剪与渐进分辨率生成。我们的方法基于两个关键洞见:(1)早期去噪步骤无需高分辨率潜在空间,(2)后期步骤则无需密集注意力。Jenga引入了一种基于块状注意力的机制,通过3D空间填充曲线动态选择相关令牌交互,同时采用渐进分辨率策略,在生成过程中逐步提升潜在空间的分辨率。实验结果显示,Jenga在多个顶尖视频扩散模型上实现了显著的加速,同时保持了可比的生成质量(在VBench上达到8.83倍加速,性能仅下降0.01%)。作为即插即用的解决方案,Jenga通过将推理时间从分钟级缩短至秒级,使得在现代硬件上实现高质量视频生成成为可能——且无需重新训练模型。代码地址:https://github.com/dvlab-research/Jenga
在本研究中,我们提出了Dimple,首个基于离散扩散的多模态大语言模型(DMLLM)。我们观察到,采用纯离散扩散方法进行训练会导致显著的训练不稳定性、性能欠佳以及严重的长度偏差问题。为应对这些挑战,我们设计了一种新颖的训练范式,将初始的自回归阶段与后续的扩散阶段相结合。这一方法催生了Dimple-7B模型,其训练数据集与训练流程与LLaVA-NEXT相似。最终,Dimple-7B在性能上超越了LLaVA-NEXT达3.9%,证明了DMLLM能够达到与自回归模型相媲美的性能。为提升推理效率,我们提出了一种称为自信解码的策略,该策略动态调整每一步生成的令牌数量,显著减少了生成迭代次数。在自回归模型中,生成过程中的前向迭代次数等于响应长度;而采用自信解码后,Dimple所需的迭代次数仅为响应长度的三分之一。我们还重新实现了自回归模型中的预填充技术,并证明其在多数基准评估上对性能影响不大,同时带来了1.5倍至7倍的加速。此外,我们探索了Dimple利用结构先验精确控制其响应的能力。这些先验使得模型能够以不同于基于指令或思维链提示的方式生成结构化响应,并允许对响应格式和长度进行细粒度控制,这在自回归模型中难以实现。总体而言,本研究验证了DMLLM的可行性和优势,并提升了其推理效率与可控性。代码和模型已发布于https://github.com/yu-rp/Dimple。
随着电子游戏在娱乐产业中创下最高营收,优化游戏开发流程已成为该行业持续增长的关键。近期,视觉-语言模型(VLMs)的进展为自动化并提升游戏开发的多个环节,尤其是质量保证(QA)领域,提供了巨大潜力。然而,QA作为行业内劳动密集度最高且自动化选项有限的环节,其效率提升尤为迫切。为了准确评估VLMs在电子游戏QA任务中的表现,并衡量其处理实际场景的有效性,建立标准化基准显得尤为重要,现有基准尚无法满足该领域的特定需求。为此,我们推出了VideoGameQA-Bench,一个全面覆盖多种游戏QA活动的基准测试,包括视觉单元测试、视觉回归测试、大海捞针任务、故障检测,以及针对各类游戏图像和视频的缺陷报告生成。代码与数据可通过以下链接获取:https://asgaardlab.github.io/videogameqa-bench/
尽管强化学习(RL)在提升大语言模型(LLMs)方面已展现出显著成效,但其应用主要集中于单轮任务,如数学问题求解。训练能够有效应对多轮交互的网络代理仍面临挑战,这源于跨越动态网页界面进行长期决策的复杂性。本研究中,我们提出了WebAgent-R1,一个简洁而高效的端到端多轮RL框架,专为训练网络代理设计。该框架通过与网络环境的在线交互直接学习,异步生成多样化的轨迹,完全依赖于任务成功与否的二元奖励进行指导。在WebArena-Lite基准测试上的实验验证了WebAgent-R1的有效性,将Qwen-2.5-3B的任务成功率从6.1%提升至33.9%,Llama-3.1-8B从8.5%提升至44.8%,显著超越了现有最先进方法及如OpenAI o3等强大的专有模型。深入分析揭示了基于思考的提示策略及通过增加交互进行测试时扩展对网络任务的有效性。我们进一步探讨了不同的RL初始化策略,引入了WebAgent-R1-Zero和WebAgent-R1-CoT两个变体,强调了预热训练阶段(即行为克隆)的重要性,并为在网络代理中融入长链推理(CoT)提供了洞见。
多模态大语言模型(MLLMs)正越来越多地应用于微调即服务(FTaaS)场景中,用户提交的数据集在此环境下调整通用模型以适应下游任务。然而,这种灵活性也带来了严重的安全风险,因为恶意微调可以轻而易举地在MLLMs中植入后门。本文中,我们观察到后门触发器通过导致注意力异常集中于非语义区域——我们称之为注意力崩溃的现象,系统地破坏了跨模态处理。基于这一洞察,我们提出了“眼见为实”(BYE),一个利用注意力熵模式作为自监督信号来识别并过滤后门样本的数据过滤框架。BYE通过三阶段流程运作:(1) 使用微调模型提取注意力图,(2) 计算熵分数并通过双峰分离分析敏感层,(3) 进行无监督聚类以移除可疑样本。与现有防御机制不同,BYE无需干净监督、辅助标签或模型修改。跨多种数据集、模型及多样触发类型的广泛实验验证了BYE的有效性:它在保持干净任务性能的同时,实现了接近零的攻击成功率,为MLLMs中的后门威胁提供了一个鲁棒且可推广的解决方案。
近期研究表明,通过基于规则的强化学习(RL)结合结果奖励,能够有效激发多模态大语言模型(MLLMs)的强推理能力。然而,这一范式通常缺乏对最终结果产生过程的思维监督,导致模型可能习得次优的推理策略,从而影响其泛化能力。鉴于此,我们提出了SophiaVL-R1,旨在为该范式引入思维过程的奖励信号。为实现这一目标,我们首先训练了一个思维奖励模型,用于评估整个思维过程的质量。考虑到某些样本可能因奖励欺骗导致思维奖励不可靠,我们提出了Trust-GRPO方法,在训练过程中为思维奖励赋予可信度权重。该权重基于正确与错误答案对应响应的思维奖励比较计算得出,有助于减轻潜在不可靠思维奖励的影响。此外,我们设计了一种退火训练策略,随时间逐步降低思维奖励的权重,使模型在训练后期更依赖于精确的基于规则的结果奖励。实验表明,SophiaVL-R1在多个基准测试(如MathVisita、MMMU)上超越了一系列推理型MLLMs,展现出强大的推理与泛化能力。值得注意的是,尽管LLaVA-OneVision-72B的参数规模是SophiaVL-R1-7B的十倍,但后者在多数基准测试上表现更优。所有代码、模型及数据集均已公开于https://github.com/kxfan2002/SophiaVL-R1。
强化学习(Reinforcement Learning, RL)已成为提升大型语言模型(Large Language Models, LLMs)推理能力的强大工具,通过奖励信号优化其策略。然而,RL的成功依赖于验证者提供的奖励的可靠性。本文揭示并分析了一个普遍存在的问题——假阴性(false negatives),即验证者错误地拒绝了模型生成的正确答案。我们对Big-Math-RL-Verified数据集的深入研究表明,超过38%的模型生成响应遭受假阴性问题,验证者未能识别出正确答案。我们通过实证和理论分析表明,这些假阴性严重损害了RL训练,剥夺了模型获取信息梯度信号的机会,并减缓了收敛速度。为缓解这一问题,我们提出了tinyV,一个基于轻量级LLM的验证器,它增强了现有的基于规则的方法,动态识别潜在的假阴性并恢复有效响应,以生成更准确的奖励估计。在多个数学推理基准测试中,集成TinyV使通过率提升了高达10%,并相对于基线加速了收敛。我们的研究结果强调了解决验证者假阴性问题的至关重要性,并提供了一种实用的方法来改进基于RL的LLM微调。我们的代码可在https://github.com/uw-nsl/TinyV获取。
多模态大语言模型(MLLMs)在问答任务中取得了显著成就,然而其在空间理解方面的能力尚待深入探索。本研究探讨了一个关键问题:现有的MLLMs是否具备三维空间感知与理解能力?具体而言,本文做出了以下贡献:(i) 我们引入了VGBench,这是一个专门设计用于评估MLLMs视觉几何感知能力的基准,例如相机姿态与运动估计;(ii) 我们提出了SpatialScore,迄今为止最全面、最多样化的多模态空间理解基准,它整合了VGBench及其他11个现有数据集的相关数据。该基准涵盖了28,000个样本,涉及多种空间理解任务、模态及问答形式,并精心挑选了一个具有挑战性的子集——SpatialScore-Hard;(iii) 我们开发了SpatialAgent,一个创新的多代理系统,集成了9种专门用于空间理解的工具,支持Plan-Execute和ReAct两种推理范式;(iv) 我们进行了广泛的评估,揭示了空间推理中持续存在的挑战,同时证明了SpatialAgent的有效性。我们相信,SpatialScore将为下一代MLLMs的演进提供宝贵洞见,并作为一个严格的基准发挥重要作用。
现代视觉-语言模型(VLMs)能够解决多种需要视觉推理的任务。在实际应用场景中,理想的VLM特性包括快速推理和可控生成(例如,约束输出以符合特定格式)。然而,现有的自回归(AR)VLMs,如LLaVA,在这些方面表现欠佳。离散扩散模型(DMs)提供了一种有前景的替代方案,通过并行解码实现更快的推理,并通过文本填充实现双向上下文,从而支持可控生成。尽管DMs在纯语言环境中表现出色,但其在多模态任务中的潜力尚未充分挖掘。我们推出了LaViDa,一个基于DMs构建的VLM系列。LaViDa通过为DMs配备视觉编码器,并联合微调这些组件以实现多模态指令跟随。针对遇到的挑战,LaViDa引入了多项创新技术,如互补掩码以提升训练效果,前缀KV缓存以优化推理效率,以及时间步长偏移以确保高质量采样。实验表明,LaViDa在多模态基准测试如MMMU上,不仅与AR VLMs竞争或超越其性能,还展现了DMs的独特优势,包括灵活的速度-质量权衡、可控性及双向推理能力。在COCO图像描述任务中,LaViDa以1.92倍的速度提升,CIDEr得分超过Open-LLaVa-Next-8B达4.1分。在双向任务上,如受限诗歌补全,LaViDa实现了59%的性能提升。这些成果证明了LaViDa作为AR VLMs强有力的替代选择。代码和模型将在最终版本中公开发布。
近期研究表明,利用强化学习(RL)构建推理模型,在生成最终答案前明确表达思维链,具有显著效果。然而,尽管旨在提升视觉-语言任务推理能力的研究不断取得进展,现有的开源视觉推理模型通常仅用纯自然语言生成推理内容,缺乏对视觉信息的显式整合。这限制了它们生成清晰表达且视觉依据充分的推理链的能力。为此,我们提出了基于图像与文本的接地推理(GRIT),一种训练多模态语言模型(MLLMs)进行图像思维的新方法。GRIT引入了一种接地推理范式,模型生成的推理链交替使用自然语言和明确的边界框坐标,这些坐标指向模型在推理过程中参考的输入图像区域。此外,GRIT配备了一种基于GRPO算法的强化学习方法——GRPO-GR。GRPO-GR采用专注于最终答案准确性和接地推理输出格式的稳健奖励机制,从而无需带有推理链注释或明确边界框标签的数据。因此,GRIT实现了卓越的数据效率,仅需现有数据集中的20个图像-问题-答案三元组。全面评估表明,GRIT有效训练了MLLMs,使其能够生成连贯且视觉依据充分的推理链,成功实现了推理与接地能力的统一。
强化学习(RL)已被证明是一种有效的后训练策略,能够提升视觉语言模型(VLMs)的推理能力。群体相对策略优化(GRPO)是近期一种显著的方法,它鼓励模型在回答问题前生成完整的推理轨迹,这导致了令牌使用量和计算成本的增加。受人类思维过程的启发——人们在面对简单问题时跳过推理,而在需要时仔细思考——我们探索如何让VLMs首先判断何时需要推理。为实现这一目标,我们提出了TON,一种两阶段训练策略:(i)监督微调(SFT)阶段,采用简单而有效的“思维丢弃”操作,即随机将推理轨迹替换为空思维。这引入了“思考与否”的格式,为选择性推理提供了冷启动;(ii)GRPO阶段,使模型能够自由探索何时思考或跳过,同时最大化任务感知的结果奖励。实验结果显示,与原始GRPO相比,TON能够将完成长度减少高达90%,且不牺牲性能甚至有所提升。在涵盖3B和7B模型下多种推理难度的多样化视觉语言任务中的进一步评估一致表明,随着训练的推进,模型逐渐学会跳过不必要的推理步骤。这些发现为强化学习方法中实现类人推理模式指明了方向。我们的代码可在https://github.com/kokolerk/TON获取。
近期,基于推理的多模态大语言模型(MLLMs)在生成长篇文本推理链方面取得了一定成功。然而,面对需要动态且迭代地聚焦并重新审视视觉区域以实现文本推理与视觉证据精确对接的复杂任务时,这些模型仍显不足。我们提出了VLM-R^3(视觉语言模型与区域识别及推理框架),该框架赋予MLLM以下能力:(i) 判断何时需要额外的视觉证据,(ii) 确定图像中的具体对接区域,以及(iii) 将相关子图像内容无缝编织进交错的思维链中。我们方法的核心是区域条件强化策略优化(R-GRPO),这一训练范式奖励模型选择信息丰富的区域、制定恰当的变换(如裁剪、缩放),并将由此产生的视觉上下文整合到后续推理步骤中。为引导这一策略,我们精心编制了一个规模适中但内容精选的视觉语言交错推理(VLIR)语料库,提供区域选择与文本论证的步骤级监督。在MathVista、ScienceQA及其他基准上的广泛实验表明,VLM-R^3在零样本和少样本设置下均创下了新的技术标杆,尤其是在需要微妙空间推理或精细视觉线索提取的问题上,提升最为显著。
强化学习(RL)在大型语言模型(LLMs)的下游任务性能及与人类价值观的对齐方面带来了显著提升。令人惊讶的是,如此大的改进仅通过更新包含5%至30%参数的小型子网络实现,其余部分基本保持不变。我们将这一现象称为由RL引发的参数更新稀疏性。这一现象在我们实验中的所有7种广泛使用的RL算法(如PPO、GRPO、DPO)及来自不同家族的10种LLMs中均被观察到。这种稀疏性是内在的,无需任何显式的稀疏性促进正则化或架构约束。仅微调子网络即可恢复测试准确率,且值得注意的是,生成的模型与通过完全微调获得的模型几乎相同。来自不同随机种子、训练数据乃至RL算法的子网络显示出远超偶然预期的重叠度。我们的分析表明,这种稀疏性并非源于仅更新部分层,而是几乎所有参数矩阵都接收了类似的稀疏更新。此外,对几乎所有参数矩阵的更新几乎都是满秩的,这表明RL更新了一小部分参数,但这些参数却几乎覆盖了参数矩阵所能表示的完整子空间。我们推测,这种更新稀疏性主要归因于在接近策略分布的数据上进行训练,而促使策略保持接近预训练模型的技术,如KL正则化和梯度裁剪,影响有限。
近期,推理型大语言模型(如DeepSeek-R1和OpenAI-o1)通过强化学习展现了卓越的推理能力。然而,将这些能力扩展至多模态大语言模型(MLLMs)却面临重重挑战,主要在于重新训练的高昂成本以及高质量、可验证的多模态推理数据集的稀缺。本文提出了FRANK模型,一种无需训练、类似R1的多模态大语言模型,它能够赋予现成的MLLMs推理与反思能力,而无需任何梯度更新或额外监督。我们的核心洞见在于,将MLLM解码器层中的感知与推理功能解耦。具体而言,我们发现相较于深层解码器,浅层解码器对视觉标记分配了更多注意力,而深层解码器则更专注于文本语义。这一观察启发我们采用一种分层权重融合方法,将视觉预训练的MLLM与专门用于推理的LLM相结合。为此,我们提出了一种基于泰勒展开的逐层闭式融合机制,该机制在保持浅层解码器视觉基础的同时,将推理能力整合到深层解码器中。在多项具有挑战性的多模态推理基准测试中,广泛的实验验证了我们方法的有效性。在MMMU基准测试中,我们的FRANK-38B模型以69.2的准确率超越了最强基线InternVL2.5-38B,提升了+5.3,甚至超过了专有的GPT-4o模型。项目主页请访问:http://iip.whu.edu.cn/frank/index.html。
大型视觉语言模型(LVLMs)仍易产生幻觉,常生成与视觉输入不符的内容。尽管近期方法通过多模态直接偏好优化(DPO)来缓解这一问题,但它们通常依赖预定义或随机编辑的负样本,这些样本未能反映模型的实际错误,限制了训练效果。本研究提出了一种在线视觉语言偏好学习(OViP)框架,该框架基于模型自身产生的幻觉输出动态构建对比训练数据。通过识别采样响应对之间的语义差异,并利用扩散模型合成负样本图像,OViP实时生成更相关的监督信号。这种基于失败驱动的训练方法实现了文本与视觉偏好的自适应对齐。此外,我们改进了现有评估协议,以更好地捕捉幻觉抑制与表达力之间的权衡。在幻觉和通用基准测试上的实验表明,OViP在有效减少幻觉的同时,保持了核心的多模态能力。
多模态大语言模型(MLLMs)在视觉任务上取得了快速进展,但其空间理解能力仍局限于单幅图像,这使得它们难以适应需要多帧推理的机器人技术及其他现实世界应用。本文提出了一种框架,通过整合深度感知、视觉对应和动态感知,赋予MLLMs强大的多帧空间理解能力。我们方法的核心是MultiSPA数据集,这是一个新颖的大规模数据集,包含超过2700万个样本,涵盖了多样化的3D和4D场景。与MultiSPA一同,我们引入了一个全面的基准测试,该测试在统一指标下检验了广泛的空间任务。我们的最终模型Multi-SpatialMLLM在基线模型和专有系统上取得了显著提升,展示了可扩展、可泛化的多帧推理能力。我们进一步观察到了多任务优势以及在挑战性场景中初现的涌现能力,并展示了我们的模型如何作为机器人技术的多帧奖励标注器发挥作用。
大型语言模型(LLMs)在现实世界的代理应用中展现了卓越能力。随着研究深入,开发基于LLM的代理以应对实际需求成为焦点,这带来了新挑战:代理场景常涉及包含复杂约束的冗长指令,如扩展的系统提示和详尽的工具规范。尽管遵循这些指令对代理应用至关重要,但LLM能否可靠执行仍待深入探究。本文中,我们提出了AgentIF,首个系统评估LLM在代理场景下指令遵循能力的基准。AgentIF具备三大特征:(1) 真实性,源自50个真实世界代理应用;(2) 长度,平均1723字,最长可达15630字;(3) 复杂性,每条指令平均包含11.9个约束,涵盖工具规范、条件约束等多种类型。构建AgentIF过程中,我们从工业应用代理和开源代理系统中收集了50个代理任务的707条人工标注指令。每条指令均标注了相关约束及对应的评估指标,包括基于代码的评估、基于LLM的评估及代码-LLM混合评估。利用AgentIF,我们系统评估了现有先进LLM,发现当前模型普遍表现欠佳,尤其在处理复杂约束结构和工具规范方面。进一步,我们对指令长度和元约束进行了错误分析和实验研究,揭示了现有LLM的一些失败模式。我们已公开代码和数据,以促进未来研究。
基于人类反馈的强化学习(RLHF)已成为一种强大的后训练范式,用于使大型语言模型与人类偏好保持一致。RLHF中的一个核心挑战是构建准确的奖励信号,传统的Bradley-Terry奖励模型(BT RMs)常因对数据规模和覆盖范围的敏感性以及易受奖励攻击而受限。生成式奖励模型(GenRMs)通过生成思维链(CoT)推理并最终给出奖励,提供了一种更为稳健的替代方案。然而,现有的GenRMs依赖于浅层、垂直扩展的推理,限制了其处理微妙或复杂(如推理密集型)任务的能力。此外,它们的成对偏好输出与需要点状奖励信号的标准RLHF算法不兼容。在本研究中,我们提出了Think-RM,一个通过模拟内部思维过程使GenRMs具备长程推理能力的训练框架。Think-RM不生成结构化的外部提供推理,而是生成灵活、自我引导的推理轨迹,支持自我反思、假设推理和发散推理等高级能力。为了激发这些推理能力,我们首先通过监督微调(SFT)在长CoT数据上进行模型预热。随后,我们通过基于规则的强化学习(RL)进一步提升模型的长程能力。此外,我们提出了一种新颖的成对RLHF流程,直接利用成对偏好奖励优化策略,无需点状奖励转换,从而更有效地利用Think-RM的输出。实验表明,Think-RM在RM-Bench上取得了最先进的结果,比BT RM和垂直扩展的GenRM高出8%。当与我们的成对RLHF流程结合时,它展示了相较于传统方法更优的最终策略性能。
大型推理模型(LRMs)引入了一种在回答前进行显式推理的新一代范式,显著提升了复杂任务的表现。然而,面对有害查询和对抗性攻击,它们也带来了巨大的安全风险。尽管近期针对LRMs的主流安全措施——监督微调(SFT)提升了安全性能,但我们发现,经过SFT对齐的模型难以泛化到未见过的越狱提示。通过深入分析LRMs的生成过程,我们识别出一个能够激活安全推理并引导安全响应的“安全顿悟时刻”。这一顿悟时刻通常出现在“关键句”中,紧随模型对查询的理解过程之后,并能预示模型是否会安全地进行后续操作。基于这些洞察,我们提出了SafeKey方法,包含两个互补目标,以更好地在关键句中激活安全顿悟时刻:(1)双路径安全头,用于增强关键句前模型内部表示中的安全信号;(2)查询掩码建模目标,旨在提升模型对其查询理解的注意力,其中蕴含重要的安全线索。跨多个安全基准的实验表明,我们的方法显著提升了对广泛越狱攻击和分布外有害提示的安全泛化能力,平均有害率降低了9.6%,同时保持了模型的通用能力。我们的分析揭示了SafeKey如何通过重塑内部注意力及提升隐藏表示质量来增强安全性。
过程奖励模型(PRMs)能够对大型语言模型(LLMs)生成的推理过程提供逐步反馈,正受到越来越多的关注。然而,当前研究仍存在两个关键空白:收集用于训练的精确步骤级错误标签通常需要昂贵的人工标注,且现有的PRMs仅限于数学推理问题。针对这些空白,本文旨在解决自动数据集创建和PRMs在多样化推理任务中泛化的挑战。为此,我们提出了FoVer方法,该方法利用形式验证工具(如用于形式逻辑的Z3和用于定理证明的Isabelle)自动标注步骤级错误标签来训练PRMs,这些工具为符号任务提供了自动且精确的验证。通过这一方法,我们合成了一个包含LLMs在形式逻辑和定理证明任务中响应错误标签的训练数据集,无需人工标注。尽管这种数据合成仅适用于与形式验证兼容的任务,但我们观察到,基于我们数据集训练的LLM-PRMs展现出跨任务泛化能力,提升了在多样化推理任务中的验证效果。具体而言,使用FoVer训练的PRMs在ProcessBench上的步骤级验证和12个推理基准(包括MATH、AIME、ANLI、MMLU和BBH)的Best-of-K性能上,显著优于基于原始LLMs的基线PRMs,并与使用人工或更强模型标注标签训练的最先进PRMs相比,取得了竞争性或更优的结果。数据集、模型和代码已发布于https://github.com/psunlpgroup/FoVer。
基于大规模语言模型(LLMs)的高质量机器翻译系统,已简化了反映特定风格约束的个性化翻译生产。然而,在风格要求较为隐晦、难以通过提示明确传达的场景中,这些系统仍面临挑战。我们探索了在资源匮乏环境下个性化LLM生成翻译的多种策略,重点关注文学翻译这一复杂领域。我们研究了提示策略及推理时干预措施,以引导模型生成趋向个性化风格,并提出了一种利用稀疏自编码器提取潜在概念的对比框架,用以识别显著的个性化特征。实验结果表明,引导策略在保持翻译质量的同时,实现了强有力的个性化。我们进一步考察了引导对LLM表征的影响,发现对个性化有显著影响的模型层,在多示例提示与我们的引导方法下受到相似影响,暗示了相似的作用机制在发挥作用。
评估大型语言模型(LLMs)的文本生成能力颇具挑战性,尤其是在低资源语言领域,直接评估方法极为匮乏。为此,我们提出了MUG-Eval这一创新框架,它通过将现有基准转化为对话任务并测量LLMs在这些任务上的准确率,来评估其多语言生成能力。我们特别设计了这些对话任务,要求模型在目标语言中进行有效沟通,进而以任务成功率作为成功生成对话的代理指标。该方法具备两大优势:其一,它不依赖于特定语言的NLP工具或标注数据集,这些资源对大多数语言而言极为有限;其二,它不采用LLMs作为评判者,因为在高资源语言之外,其评估质量会显著下降。我们在涵盖高、中、低资源类别的30种语言上对8个LLMs进行了评估,发现MUG-Eval与现有基准具有强相关性(r > 0.75),同时实现了跨语言和跨模型的标准化比较。我们的框架为评估多语言生成提供了一个稳健且资源高效的解决方案,可扩展至数千种语言。
我们提出了RoPECraft,一种无需训练的视频运动迁移方法,专为扩散变换器设计,仅通过修改其旋转位置嵌入(RoPE)即可实现。首先,我们从参考视频中提取密集光流,并利用得到的运动偏移量对RoPE的复指数张量进行扭曲,从而将运动有效地编码到生成过程中。随后,在去噪步骤中,通过使用光流匹配目标对预测速度与目标速度之间的轨迹对齐,进一步优化这些嵌入。为了确保输出忠实于文本提示并防止重复生成,我们引入了一个基于参考视频傅里叶变换相位分量的正则化项,将相位角投影到平滑流形上以抑制高频伪影。基准测试实验表明,RoPECraft在定性和定量上均优于所有近期发布的方法。
图像中的隐喻理解仍是AI系统面临的关键挑战,现有模型难以把握视觉内容中蕴含的微妙文化、情感及语境含义。尽管多模态大语言模型(MLLMs)在基础视觉问答(VQA)任务上表现出色,但在图像隐含意义任务上存在根本性局限:语境缺失导致不同视觉元素与其抽象意义间的关系模糊不清。受人类认知过程启发,我们提出了“让安卓梦游”(LAD)这一新颖框架,用于图像隐含意义的理解与推理。LAD通过三阶段框架解决语境缺失问题:(1)感知:将视觉信息转化为多层次丰富的文本表示;(2)搜索:迭代搜索并整合跨领域知识以消除歧义;(3)推理:通过显式推理生成与语境对齐的图像隐含意义。我们的框架结合轻量级GPT-4o-mini模型,在英文图像隐含意义基准测试中相比15+个MLLMs达到SOTA性能,并在中文基准测试上取得显著提升,在多项选择题(MCQ)上与GPT-4o模型表现相当,在开放式问题(OSQ)上超出36.7%。此外,我们的工作为AI如何更有效解读图像隐含意义提供了新见解,推动了视觉语言推理与人机交互领域的发展。项目已公开于https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep。
大型语言模型(LLMs)在明知有误时能否承认错误?在本研究中,我们将模型对先前生成答案中错误的承认行为定义为“撤回”,并旨在探究LLMs何时及为何选择撤回。我们首先构建了模型特定的数据集,以评估模型是否会撤回与其自身参数化知识相矛盾的错误答案。尽管LLMs具备撤回能力,但这一行为却并不常见。我们证明,撤回行为与先前识别出的模型内部信念指标紧密相关:模型未能撤回那些其“认为”事实正确的错误答案。引导实验进一步表明,内部信念对模型撤回行为具有因果影响。特别是,当模型不确信其答案时,不仅会促使模型尝试验证答案,还会改变自我验证过程中的注意力行为。最后,我们展示了简单的监督微调通过帮助模型学习更准确的内部信念,显著提升了撤回性能。代码与数据集已发布于https://github.com/ayyyq/llm-retraction。
视觉语言模型(VLMs)通过互联网规模的图文语料库获取现实世界知识和通用推理能力。它们能够增强机器人系统的场景理解与任务规划能力,并辅助基于机器人轨迹数据训练的视觉运动策略。我们探索了逆向范式——利用丰富、真实、多模态的机器人轨迹数据来提升和评估VLMs。本文中,我们提出了Robo2VLM,一个专为VLMs设计的视觉问答(VQA)数据集生成框架。给定一条人类远程操作的机器人轨迹,Robo2VLM从非视觉且非描述性的感知模态(如末端执行器姿态、夹爪开合度及力觉传感)中提取真值信息。基于这些模态,它将机器人轨迹分割为一系列操作阶段。在每个阶段,Robo2VLM利用场景与交互理解,识别机器人的三维属性、任务目标及目标物体。这些属性被用于生成代表性的VQA查询——即带有文本多选题的图像——基于空间、目标条件及交互推理的问题模板。我们精心构建了Robo2VLM-1,一个大规模真实场景数据集,包含684,710个问题,覆盖463个独特场景和来自176,000条真实机器人轨迹的3,396个机器人操作任务。结果表明,Robo2VLM-1能够基准测试并提升VLMs在空间与交互推理方面的能力。
尽管大规模视觉语言模型(LVLMs)取得了显著进展,但在其可解释性及如何定位和解读图像中的文本信息方面仍存在差距。本文通过探索多种LVLMs,识别出负责从图像中识别文本的特定头部,我们称之为光学字符识别头部(OCR Head)。关于这些头部的发现如下:(1)稀疏性较低:与以往的检索头部不同,大量头部被激活以提取图像中的文本信息。(2)性质独特:OCR头部具有与一般检索头部显著不同的特性,其特征相似度较低。(3)静态激活:这些头部的激活频率与其OCR评分高度一致。我们通过在OCR头部和传统检索头部上应用思维链(CoT)以及对这些头部进行掩码,在下游任务中验证了我们的发现。我们还展示了在OCR头部内重新分配汇聚标记值可以提升性能。这些见解深化了我们对LVLMs处理图像中嵌入文本信息内部机制的理解。
随着视觉语言模型(VLMs)日益融入日常生活,准确理解视觉文化的需求变得至关重要。然而,这些模型在有效解读文化细微差别方面常常表现不足。先前的研究已证明,在纯文本环境中,检索增强生成(RAG)对提升文化理解的有效性,但其在多模态场景中的应用仍待深入探索。为填补这一空白,我们推出了RAVENEA(检索增强视觉文化理解),这是一个旨在通过检索推进视觉文化理解的新基准,聚焦于两项任务:文化导向的视觉问答(cVQA)和文化感知的图像描述(cIC)。RAVENEA通过整合由人工标注者精心挑选并排序的超过10,000份维基百科文档,扩展了现有数据集。利用RAVENEA,我们为每幅图像查询训练并评估了七种多模态检索器,并测量了检索增强输入对十四种最先进VLMs的下游影响。结果显示,轻量级VLMs在结合文化感知检索后,其表现超越了未增强的版本(在cVQA上至少提升3.2%,在cIC上至少提升6.2%)。这凸显了检索增强方法及文化包容性基准在多模态理解中的价值。
现代BPE分词器常将日历日期分割成无意义的片段,例如20250312被拆分为202、503、12,这不仅增加了词汇量,还模糊了进行稳健时间推理所需的内在结构。在本研究中,我们(1)引入了一种简单且可解释的度量标准,称为日期碎片化比率,用于衡量分词器在多大程度上忠实保留了多位数日期组件;(2)发布了DateAugBench,这是一套包含6500个示例的测试集,涵盖三项时间推理任务:基于上下文的日期解析、格式不变性谜题以及跨越历史、当代和未来时期的日期运算;(3)通过层级探测和因果注意力跳转分析,揭示了一种新兴的日期抽象机制,大型语言模型借此将月、日、年组件碎片拼接起来进行时间推理。我们的实验表明,过度的碎片化与罕见日期(如历史和未来日期)上高达10个百分点的准确率下降相关。此外,我们发现模型越大,完成修复日期碎片的新兴日期抽象过程越快。最后,我们观察到大型语言模型在组装日期碎片时遵循的推理路径,通常与人类的理解方式(年→月→日)有所不同。
我们引入了一个新颖的数据集,旨在基于拓扑优化方法评估大型语言模型(LLM)的物理与空间推理能力。拓扑优化是一种在设计空间内,根据给定载荷和支撑条件计算最优材料分布的方法。在该数据集中,LLM被提供诸如二维边界、施加的力及支撑等条件,并需推理出相应的最优材料分布。数据集包含多种任务,从填补部分结构中的掩码区域到预测完整的材料分布不等。解决这些任务需要理解在给定约束下力的流动及所需材料分布,而无需借助仿真工具或显式的物理模型,从而挑战模型对结构稳定性和空间组织的推理能力。我们的数据集专注于二维环境下的空间与物理推理能力评估,为传统的语言与逻辑基准提供了补充视角。
通过对扰动输入进行图像合成的预训练,生成模型本质上学会了理解物体边界和场景构成。我们如何将这些生成式表征重新用于通用感知组织任务?我们使用实例着色损失,在有限的对象类别(室内家具和汽车)上对Stable Diffusion和MAE(编码器+解码器)进行微调,以实现类别无关的实例分割。令人惊讶的是,我们的模型展现出强大的零样本泛化能力,能够准确分割在微调过程中未见过的对象类型和风格(在许多情况下,甚至超越了MAE在ImageNet-1K上的预训练)。在评估未见过的对象类型和风格时,我们表现最佳的模型与高度监督的SAM模型接近,并在分割精细结构和模糊边界时表现更优。相比之下,现有的可提示分割架构或判别式预训练模型则无法实现类似的泛化。这表明,生成模型学习到了一种跨类别和领域的内在分组机制,即使没有互联网规模的预训练。代码、预训练模型和演示可在我们的网站上获取。
大型音频语言模型(LALMs)通过融入语音、音频等多模态理解能力,扩展了大型语言模型的应用范围。尽管这些模型在语音和音频处理任务上的表现已得到广泛研究,但其推理能力仍待深入探索。特别是,它们在多跳推理——即回忆并整合多个事实的能力方面,缺乏系统性的评估。现有基准测试主要关注通用语音和音频处理任务、对话能力及公平性,却忽视了这一关键维度。为填补这一空白,我们推出了SAKURA基准,专门评估LALMs基于语音和音频信息的多跳推理能力。结果显示,即便LALMs能正确提取相关信息,它们在整合语音/音频表征以进行多跳推理时仍面临困难,这揭示了多模态推理中的一个根本性挑战。我们的研究揭示了LALMs的一个关键局限,为未来研究提供了洞见与资源。