每日精选AI研究论文及翻译
大型视觉-语言模型(VLMs)展现出卓越性能,但需要大量计算资源,这限制了其在移动和边缘设备上的部署。较小的VLMs通常模仿大型模型的设计选择,如广泛的图像标记化,导致GPU内存使用效率低下,并制约了设备端应用的实际可行性。 我们推出了SmolVLM系列,这是一组专为资源高效推理设计的紧凑型多模态模型。我们系统地探索了针对低计算开销优化的架构配置、标记化策略和数据筛选方法。通过这一过程,我们识别出关键设计选择,这些选择在图像和视频任务上带来了显著的性能提升,同时保持了极小的内存占用。 我们最小的模型SmolVLM-256M在推理过程中使用的GPU内存不足1GB,却超越了体积是其300倍的Idefics-80B模型,尽管两者之间存在18个月的开发差距。我们最大的模型拥有22亿参数,与消耗两倍GPU内存的顶尖VLMs相媲美。SmolVLM系列不仅限于静态图像处理,还展示了强大的视频理解能力。 我们的研究结果强调,通过策略性的架构优化、激进而高效的标记化处理,以及精心筛选的训练数据,可以显著提升多模态性能,从而在显著缩小的规模上实现实用且节能的部署。
现今的Transformer模型在生成一分钟视频方面仍面临挑战,因为自注意力层在处理长上下文时效率低下。而诸如Mamba层等替代方案,由于隐藏状态表达能力不足,难以驾驭复杂的多场景故事。我们尝试了测试时训练(TTT)层,其隐藏状态本身可以是神经网络,因而具备更强的表达能力。将TTT层集成到预训练的Transformer中,使其能够从文本故事板生成一分钟视频。为验证概念,我们基于《猫和老鼠》动画片构建了一个数据集。与Mamba~2、门控DeltaNet及滑动窗口注意力层等基线方法相比,TTT层生成的视频在讲述复杂故事时连贯性显著提升,在每种方法100个视频的人类评估中,以34个Elo分的优势领先。尽管结果令人鼓舞,但仍存在瑕疵,这可能是由于预训练的50亿参数模型能力有限所致。此外,我们实现的效率也有待提高。由于资源限制,我们仅实验了一分钟视频,但该方法可扩展至更长视频及更复杂的故事。示例视频、代码及注释可在以下网址获取:https://test-time-training.github.io/video-dit。
语言模型自我反思其推理过程的能力,为解决复杂问题提供了关键优势。尽管近期研究多聚焦于这一能力在强化学习阶段的发展,但我们发现,它实际上在模型预训练阶段就已初现端倪。为探究此现象,我们有意在思维链中引入错误,测试模型是否仍能通过识别并纠正这些错误得出正确答案。通过追踪预训练不同阶段的性能表现,我们观察到这种自我纠错能力早期即显现,并随时间稳步提升。例如,一个在4万亿标记上预训练的OLMo2-7B模型,在我们的六项自我反思任务中展现了自我纠错能力。
近期研究表明,测试时计算资源扩展能有效提升小型语言模型(sLMs)的性能。然而,先前的研究主要依赖于额外的大型模型作为验证器来考察测试时计算扩展,对sLMs自我验证能力的探索则相对不足。本研究中,我们探讨了sLMs在测试时扩展条件下能否可靠地自我验证其输出。我们发现,即便通过知识蒸馏从大型验证器获取知识,sLMs在处理需要记忆的验证任务(如数值计算和事实核查)时仍面临困难。针对这一局限,我们提出了工具集成的自我验证方法(T1),将记忆密集型的验证步骤委托给外部工具(如代码解释器)。理论分析表明,工具集成降低了记忆需求,提升了测试时扩展的性能。在MATH基准测试上的实验显示,采用T1方法后,Llama-3.2 1B模型在测试时扩展下的表现超越了规模显著更大的Llama-3.1 8B模型。此外,T1在数学(MATH500)和多领域知识密集型任务(MMLU-Pro)上均展现出良好的泛化能力。我们的发现凸显了工具集成在显著提升sLMs自我验证能力方面的潜力。
区域级描述生成旨在为特定图像区域生成自然语言描述,同时突出其显著特征。然而,现有方法难以在多粒度上生成独特的描述,限制了其在实际应用中的有效性。为满足对区域级细节理解的需求,我们引入了URECA数据集,这是一个专为多粒度区域描述而构建的大规模数据集。与以往主要关注显著对象的数据集不同,URECA通过整合多样化的对象、部件及背景元素,确保了区域与描述之间独特且一致的映射关系。其核心在于分阶段的数据处理流程,每一阶段逐步优化区域选择与描述生成。通过在各阶段利用多模态大语言模型(MLLMs),我们的流程能够生成具有更高准确性和语义多样性的独特且上下文相关的描述。基于此数据集,我们提出了URECA模型,该模型旨在有效编码多粒度区域信息。URECA通过对现有MLLMs进行简单而有效的修改,保留了位置和形状等关键空间属性,从而实现了细粒度且语义丰富的区域描述。我们的方法引入了动态掩码建模和高分辨率掩码编码器,以增强描述的独特性。实验表明,URECA在URECA数据集上达到了最先进的性能,并在现有区域级描述基准测试中展现出良好的泛化能力。
近期,推理语言模型在复杂任务中展现出了卓越的性能,但其延长的思维链推理过程增加了推理开销。尽管量化技术已被广泛用于降低大型语言模型的推理成本,其对推理模型的影响仍缺乏深入研究。在本研究中,我们首次对量化推理模型进行了系统性研究,评估了开源模型DeepSeek-R1-Distilled Qwen和LLaMA系列(参数规模从1.5B到70B)以及QwQ-32B。我们的研究涵盖了权重、KV缓存和激活量化,采用不同比特宽度的先进算法,并在数学(AIME、MATH-500)、科学(GPQA)和编程(LiveCodeBench)推理基准上进行了广泛评估。研究发现,虽然W8A8或W4A16量化可实现无损量化,但更低比特宽度会带来显著的准确率风险。我们进一步发现,模型大小、模型来源和任务难度是性能的关键决定因素。与预期相反,量化模型并未表现出输出长度增加的现象。此外,策略性地扩展模型规模或增加推理步骤能有效提升性能。所有量化模型及代码将开源至https://github.com/ruikangliu/Quantized-Reasoning-Models。
我们提出了VAPO(基于价值的增强近端策略优化框架),这是一个专为价值范式下的推理模型量身定制的新颖框架。在AIME 2024数据集上的基准测试中,基于Qwen 32B预训练模型构建的VAPO取得了60.4的顶尖分数。在相同的实验设置下直接对比,VAPO比之前报道的DeepSeek-R1-Zero-Qwen-32B和DAPO结果高出10多分。VAPO的训练过程以其稳定性和高效性脱颖而出,仅需5,000步即可达到顶尖性能。此外,在多次独立运行中,未发生任何训练崩溃,凸显了其可靠性。本研究深入探讨了使用基于价值的强化学习框架进行长链思维(long-CoT)推理。我们指出了困扰基于价值方法的三大关键挑战:价值模型偏差、异质序列长度的存在以及奖励信号的稀疏性。通过系统化设计,VAPO提供了一个综合解决方案,有效缓解了这些挑战,从而在长链思维推理任务中实现了性能提升。
扩散模型广泛应用于图像编辑任务。现有编辑方法通常通过在文本嵌入或得分空间中精心设计编辑方向来构建表示操作流程。然而,此类方法面临一个关键挑战:过高估计编辑强度会损害视觉一致性,而低估则无法完成编辑任务。值得注意的是,每幅源图像可能需要不同的编辑强度,通过反复试验寻找合适的强度成本高昂。为解决这一难题,我们提出了概念手术刀(CoLan),一种零样本即插即用的框架,用于在基于扩散的图像编辑中进行原则性的表示操作。在推理阶段,我们将源输入在潜在(文本嵌入或扩散得分)空间分解为收集到的视觉概念表示的稀疏线性组合。这使得我们能够准确估计每幅图像中概念的存在情况,从而指导编辑。根据编辑任务(替换/添加/移除),我们执行定制的概念移植过程以施加相应的编辑方向。为充分建模概念空间,我们构建了一个概念表示数据集CoLan-150K,其中包含视觉术语和短语的多样化描述和场景,作为潜在字典。在多个基于扩散的图像编辑基准上的实验表明,配备CoLan的方法在编辑效果和一致性保持方面均达到了最先进的性能。
我们推出了LiveVQA,这是一个自动从互联网收集最新视觉知识并合成视觉问答(VQA)问题的数据集。LiveVQA包含来自6个新闻网站、涵盖14个新闻类别的3,602个单跳和多跳视觉问题,具有高质量的图文一致性和真实信息。我们对15种多模态大语言模型(如GPT-4o、Gemma-3和Qwen-2.5-VL系列)的评估表明,更强的模型整体表现更优,其中先进的视觉推理能力在处理复杂的多跳问题时尤为关键。尽管在文本问题上表现出色,但配备搜索引擎等工具的模型在回答需要最新视觉知识的视觉问题时仍存在显著差距,这为未来研究指明了重要方向。
大型语言模型(LLMs)通过黑箱API的广泛普及,带来了一个显著的信任挑战:用户基于广告宣传的模型能力(如规模、性能)支付服务费用,但提供商可能暗中将指定模型替换为成本更低、质量较差的替代品以降低运营成本。这种透明度的缺失损害了公平性,削弱了信任,并使可靠的基准测试变得复杂。由于黑箱特性,检测此类替换十分困难,通常仅限于输入输出查询的交互。本文正式定义了LLM API中的模型替换检测问题。我们系统评估了现有的验证技术,包括基于输出的统计测试、基准评估和日志概率分析,在多种现实攻击场景下(如模型量化、随机替换和基准规避)的表现。研究发现,仅依赖文本输出的方法在面对微妙或适应性攻击时存在明显局限。尽管日志概率分析在可用时提供了更强的保证,但其可访问性往往受限。最后,我们探讨了基于硬件的解决方案(如可信执行环境TEEs)作为实现可证明模型完整性的潜在途径,强调了安全性、性能与提供商采纳之间的权衡。代码可在https://github.com/sunblaze-ucb/llm-api-audit获取。
推理是人类智能的核心,它使得我们能够跨多种任务进行结构化的问题解决。近年来,大型语言模型(LLMs)在算术、常识及符号领域的推理能力取得了显著提升。然而,如何有效地将这些能力扩展到多模态场景中——即模型需要整合视觉与文本输入——仍然是一个重大挑战。多模态推理引入了诸多复杂性,例如处理不同模态间的信息冲突,这要求模型采用更为高级的解释策略。应对这些挑战不仅需要复杂的算法,还需建立评估推理准确性与一致性的稳健方法论。本文对文本及多模态LLMs中的推理技术进行了简明而深入的概述。通过全面且最新的比较,我们清晰地阐述了核心推理挑战与机遇,并着重介绍了训练后优化及测试时推理的实用方法。我们的研究为理论框架与实践应用之间架设了桥梁,提供了宝贵的洞见与指导,并为未来研究指明了清晰的方向。
扩散模型将去噪分布近似为高斯分布并预测其均值,而流匹配模型则将高斯均值重新参数化为流速度。然而,由于离散化误差,它们在少步采样中表现欠佳,并且在无分类器指导(CFG)下往往产生过度饱和的颜色。为应对这些局限,我们提出了一种新颖的高斯混合流匹配(GMFlow)模型:GMFlow不预测均值,而是预测动态高斯混合(GM)参数,以捕捉多模态流速度分布,该分布可通过KL散度损失进行学习。我们证明,GMFlow推广了先前的扩散和流匹配模型,后者使用L_2去噪损失学习单一高斯分布。在推理阶段,我们推导了GM-SDE/ODE求解器,利用解析去噪分布和速度场实现精确的少步采样。此外,我们引入了一种新颖的概率指导方案,缓解了CFG的过饱和问题,提升了图像生成质量。大量实验表明,GMFlow在生成质量上持续超越流匹配基线,在ImageNet 256×256数据集上仅用6个采样步骤即达到了0.942的精度。
工具增强型大型语言模型(TA-LLMs)在现实应用中展现出潜力,但在处理不完整查询和超出范围请求时面临挑战。现有方法主要依赖于专家轨迹的监督微调,而我们提出了DiaTool-DPO,一种通过直接偏好优化增强TA-LLM对话能力的新方法。我们将TA-LLM的交互建模为具有5种不同对话状态的马尔可夫决策过程,并根据状态转移轨迹将用户查询分为3种类型。我们自动构建了正确与错误对话流程的配对轨迹数据集,并引入了一种专门用于对话控制的目标损失函数。全面评估表明,DiaTool-DPO在信息收集(94.8%)和工具调用拒绝(91%)方面接近GPT-4o的性能,相较于基线(分别为44%和9.6%)有显著提升,同时保持了核心功能。我们的方法为开发能够应对多样化现实场景的TA-LLMs开辟了新途径,无需额外的专家演示或人工标注。
我们推出Clinical ModernBERT,这是一种基于Transformer架构的编码器,通过大规模生物医学文献、临床记录及医学术语进行预训练,整合了PubMed摘要、MIMIC IV临床数据以及带有文本描述的医疗编码。该模型在ModernBERT的基础上构建,后者作为当前自然语言文本编码器的前沿技术,引入了诸如旋转位置嵌入(RoPE)、Flash Attention以及扩展至8,192个标记的上下文长度等架构升级。我们的模型特别针对生物医学和临床领域调整了这些创新技术。Clinical ModernBERT在生成适用于长上下文任务的语义丰富表示方面表现卓越。我们通过分析其预训练权重,并在一系列全面的临床自然语言处理基准测试中进行实证评估,验证了其有效性。
从单张图像理解三维场景是计算机视觉领域的一个关键问题,在图形学、增强现实和机器人技术中有着广泛的应用。尽管基于扩散的建模方法已展现出潜力,但在复杂的现实场景中,它们往往难以保持物体和场景的一致性。为解决这些局限,我们提出了一种自回归生成方法,称为局部随机访问序列(LRAS)建模,该方法采用局部块量化和随机顺序序列生成。通过利用光流作为三维场景编辑的中间表示,我们的实验表明,LRAS在新型视图合成和三维物体操控能力上达到了业界领先水平。此外,我们展示了通过简单调整序列设计,该框架可自然扩展到自监督深度估计任务。通过在多项三维场景理解任务中取得优异表现,LRAS为构建下一代三维视觉模型提供了一个统一且高效的框架。
视觉基础模型(VFMs)与视觉-语言模型(VLMs)因其强大的泛化能力,在领域泛化语义分割(DGSS)中备受关注。然而,现有的DGSS方法往往仅依赖VFMs或VLMs之一,忽视了二者互补的优势。VFMs(如DINOv2)擅长捕捉细粒度特征,而VLMs(如CLIP)虽提供稳健的文本对齐能力,却在粗粒度处理上表现欠佳。尽管二者优势互补,但如何通过注意力机制有效整合VFMs与VLMs仍具挑战,因为增加的补丁标记使得长序列建模更为复杂。为此,我们提出了MFuser,一种基于Mamba的新型融合框架,它高效结合了VFMs与VLMs的优势,同时保持了序列长度的线性可扩展性。MFuser包含两大核心组件:MVFuser,作为协同适配器,通过捕捉序列与空间动态联合微调两个模型;以及MTEnhancer,一种混合注意力-Mamba模块,通过融入图像先验来精炼文本嵌入。我们的方法在不显著增加计算开销的前提下,实现了精确的特征局部性与强健的文本对齐。大量实验表明,MFuser在合成到真实及真实到真实基准测试中分别取得了68.20 mIoU和71.87 mIoU的优异成绩,显著超越了当前最先进的DGSS方法。代码已公开于https://github.com/devinxzhang/MFuser。
我们在此介绍2024年BOP挑战赛的评估方法、数据集及成果,这是为捕捉6D物体姿态估计及相关任务最新技术水平而举办的系列公开竞赛中的第六届。2024年,我们的目标是将BOP从实验室环境过渡到真实世界场景。首先,我们引入了无需3D物体模型的新任务,即方法仅需通过提供的参考视频即可完成物体上架。其次,我们定义了一个更为实用的6D物体检测任务,其中测试图像中可见物体的身份信息不再作为输入提供。第三,我们推出了使用高分辨率传感器和AR/VR头戴设备录制的新BOP-H3数据集,这些数据集高度模拟了真实世界场景。BOP-H3包含3D模型和上架视频,以支持基于模型和无模型的任务。参赛者在七个挑战赛道上展开竞争,每个赛道由任务、物体上架设置和数据集组定义。值得注意的是,2024年针对未见物体基于模型的6D定位最佳方法(FreeZeV2.1)在BOP-Classic-Core上的准确率比2023年最佳方法(GenFlow)高出22%,尽管速度显著较慢(每幅图像24.9秒对比2.7秒),但与2023年针对已见物体的最佳方法(GPose2023)相比仅落后4%。更为实用的2024年方法是Co-op,每幅图像仅需0.8秒,比GenFlow快25倍且准确率高出13%。在6D检测任务上,方法的排名与6D定位相似,但运行时间更长。在针对未见物体基于模型的2D检测中,2024年最佳方法(MUSE)相较于2023年最佳方法(CNOS)实现了21%的相对提升。然而,未见物体的2D检测准确率仍显著低于已见物体(GDet2023)的准确率,差距为53%。在线评估系统持续开放,访问地址为http://bop.felk.cvut.cz/。
我们提出了一种新颖的方法,用于训练小型语言模型进行推理密集型的文档排序,该方法将知识蒸馏与强化学习优化相结合。现有方法通常依赖于昂贵的人工标注或大型黑箱语言模型,而我们的方法则利用网络数据和教师大语言模型自动生成带有相关性解释的高质量训练样本。通过将文档排序问题转化为强化学习任务,并激励显式推理能力,我们训练了一个紧凑的30亿参数语言模型,该模型在BRIGHT基准测试中达到了最先进的性能。我们的模型在排行榜上位列第三,同时使用的参数数量远少于其他方法,超越了参数规模超过其20倍的模型。通过大量实验,我们证明在推理过程中生成解释而非直接预测相关性分数,能够使小型语言模型实现更有效的推理。我们方法的自监督特性为现代信息检索系统提供了一种可扩展且可解释的解决方案。
多模态大语言模型(MLLMs)在视觉-语言任务中表现出色,但也存在生成有害内容的重大风险,尤其是通过越狱攻击。越狱攻击指的是有意绕过模型安全机制的操纵行为,导致生成不当或不安全的内容。检测此类攻击对于确保MLLMs的负责任部署至关重要。现有的越狱检测方法面临三大挑战:(1)许多方法依赖于模型的隐藏状态或梯度,限制了它们仅适用于白盒模型,即模型内部机制可访问的情况;(2)基于不确定性分析的高计算开销,限制了实时检测的能力;(3)需要完全标注的有害数据集,而这些数据在现实场景中往往稀缺。为解决这些问题,我们引入了一种名为JAILDAM的测试时自适应框架。该方法采用基于记忆的策略驱动不安全知识表示,无需显式接触有害数据。通过在测试时动态更新不安全知识,我们的框架在保持效率的同时,提升了对未见越狱策略的泛化能力。在多个VLM越狱基准上的实验表明,JAILDAM在有害内容检测方面实现了最先进的性能,同时提高了准确性和速度。
增加测试时计算量已成为提升语言模型性能的一个有前景的方向,尤其是在因计算资源限制或模型权重私有化而无法进行微调的场景下。然而,现有的基于奖励模型(RM)的测试时搜索方法,随着计算规模的扩大,往往会因过度优化本质上不完美的奖励代理而导致质量下降。我们引入了QAlign,一种新的测试时对齐方法。随着测试时计算量的增加,QAlign会收敛到为每个提示从最优对齐分布中采样。通过采用文本生成领域最新的马尔可夫链蒙特卡洛技术,我们的方法能够在无需修改底层模型甚至无需访问logits的情况下,生成更对齐的输出。我们在数学推理基准测试(GSM8K和GSM-Symbolic)上使用任务特定的RM验证了QAlign的有效性,展示了其相较于现有测试时计算方法(如最佳n选一和多数投票)的持续改进。此外,当结合基于Tulu 3偏好数据集训练的更为现实的RM应用时,QAlign在多种数据集(GSM8K、MATH500、IFEval、MMLU-Redux和TruthfulQA)上均优于直接偏好优化(DPO)、最佳n选一、多数投票及加权多数投票。作为一种在测试时利用额外计算量对齐语言模型且不导致性能下降的实用解决方案,我们的方法拓展了无需进一步训练即可从现成语言模型中获取能力的极限。
全球范围内,大型语言模型(LLMs)正以前所未有的速度发展,各地区越来越多地采用这些模型应用于其母语场景。在多样化的语言环境中,尤其是在低资源语言中评估这些模型,已成为学术界和工业界面临的一大挑战。现有的评估框架过度集中于英语及少数高资源语言,从而忽视了LLMs在多语言及低资源情境下的实际表现。为填补这一空白,我们推出了GlotEval,一个专为大规模多语言评估设计的轻量级框架。GlotEval支持七大核心任务(机器翻译、文本分类、摘要生成、开放式生成、阅读理解、序列标注及内在评估),覆盖数十至数百种语言,强调一致的多语言基准测试、语言特定的提示模板以及非英语中心的机器翻译策略,从而精准诊断模型在不同语言环境下的优势与不足。通过一项多语言翻译案例研究,GlotEval展示了其在多语言及特定语言评估中的适用性。
大型语言模型(LLMs)在不同语言间的表现存在显著差异,主要惠及高资源语言,而边缘化了资源匮乏的语言。持续预训练(CPT)作为一种有前景的方法,旨在解决这一不平衡问题,尽管单语、双语及代码增强数据策略的相对有效性尚不明确。本研究系统评估了涉及三种多语言基础模型的36种CPT配置,覆盖了30多种语言,这些语言根据其资源水平被分类为利他型、自私型和停滞型。研究发现揭示了三大要点:(1)双语CPT提升了多语言分类能力,但在生成过程中常引发语言混杂问题。(2)在CPT过程中加入编程代码数据持续提高了多语言分类的准确性,尤其对低资源语言有益,但以轻微降低生成质量为代价。(3)与先前研究相反,我们观察到语言分类对其跨语言迁移影响存在显著偏差:被归类为利他型的语言往往对相关语言产生负面影响,自私型语言表现出条件性和配置依赖性的行为,而停滞型语言在某些CPT条件下展现了惊人的适应能力。这些微妙的交互作用凸显了多语言表示学习的复杂性,强调了系统研究可推广的语言分类对于指导未来多语言CPT策略的重要性。