每日精选AI研究论文及翻译
随着语言模型能力日益增强,用户不仅期望其提供准确回答,更要求其在多样化场景中展现符合人类偏好的行为。为实现这一目标,强化学习流程开始引入多个奖励函数,每个函数对应不同偏好,以引导模型达成预期行为。然而近期研究默认在多奖励场景下直接采用组相对策略优化方法,却未检验其适用性。本文指出,直接应用GRPO对不同的轨迹奖励组合进行归一化处理,会导致其坍缩为相同的优势值,从而降低训练信号的分辨率,引发收敛效果欠佳甚至早期训练失败。为此我们提出组奖励解耦归一化策略优化方法,通过解耦单个奖励的归一化过程,更真实地保留其相对差异,实现更精准的多奖励优化,并显著提升训练稳定性。我们在工具调用、数学推理和代码推理三项任务中对比GDPO与GRPO,同时评估正确性指标(准确率、错误率)和约束遵循指标(格式、长度)。在所有实验设置下,GDPO均稳定超越GRPO,证明了其在多奖励强化学习优化中的有效性和泛化能力。
在大型语言模型预训练中,对矩阵层施加权重衰减(WD)是标准做法。已有研究表明,随机梯度噪声会引发权重矩阵W的类布朗运动式扩张,而权重衰减通过抑制这种扩张,最终形成具有特定权重范数||W||的WD-噪声平衡态。本研究将该平衡态下的范数视为训练过程的有害伪影,并通过引入可学习乘子来优化尺度参数。首先,我们在W上附加可学习的标量乘子,证实了WD-噪声平衡范数存在次优性:学习到的尺度能自适应数据并提升性能。进而我们论证了行列范数存在类似约束,通过引入可学习的行/列乘子释放其尺度约束。我们的方法可视为对muP乘子的一种可学习、更高表达能力的泛化。该方法在优化良好的muP基线基础上实现性能提升,降低了乘子调优的计算开销,并引发出前向传播对称性、学习乘子的宽度缩放等实践性问题。最后,我们在Adam和Muon优化器上验证了可学习乘子的有效性,其在下游评估中的改进幅度与从Adam切换到Muon所带来的提升相当。
夜间色彩恒常性因低光照噪声和复杂照明条件,始终是计算摄影领域的难点。我们提出RL-AWB——一种融合统计方法与深度强化学习的夜间白平衡创新框架。该方法首先采用专为夜间场景设计的统计算法,将显著灰度像素检测与新型光照估计相结合。在此基础上,我们开发了首个以该统计算法为核心的色彩恒常性深度强化学习方法,通过动态优化每张图像的参数,模拟专业AWB调校专家的操作流程。为促进跨传感器评估,我们构建了首个多传感器夜间数据集。实验结果表明,该方法在低光照与正常光照图像上均展现出卓越的泛化能力。项目页面:https://ntuneillee.github.io/research/rl-awb/
大型语言模型(LLMs)在多个领域展现出卓越能力。然而,要实现单一通用模型在所有领域的强劲性能,通常需要将模型规模扩展至训练和部署成本难以承受的程度。另一方面,虽然小型领域专用模型效率更高,但其难以泛化至训练分布之外的数据。为解决这一困境,我们提出FusionRoute——一种鲁棒且高效的令牌级多LLM协作框架。该框架通过轻量级路由器的双重作用实现:(i)在每一步解码时选择最合适的专家模型;(ii)通过逻辑值叠加提供互补性逻辑输出,以优化或修正所选专家的下一令牌概率分布。与仅依赖固定专家输出的现有令牌级协作方法不同,我们的理论分析表明纯专家路由存在根本局限:除非满足强全局覆盖假设,否则通常无法实现最优解码策略。通过将专家选择与可训练的互补生成器相结合,FusionRoute扩展了有效策略类别,并在温和条件下实现了最优值函数恢复。实证研究表明,基于Llama-3和Gemma-2模型系列,在数学推理、代码生成、指令遵循等多样化基准测试中,FusionRoute在保持与领域专家模型任务表现相当的同时,显著优于序列级/令牌级协作、模型融合及直接微调方法。
操纵数据的多样性、数量与质量对于训练有效的机器人策略至关重要。然而受硬件和物理环境限制,在多样化场景中大规模采集真实世界操纵数据仍难以实现。近期研究采用文本提示条件化的图像扩散模型,通过改变视觉观测中的背景和桌面物体来增强操纵数据。但这些方法往往忽视了先进策略模型对多视角与时序一致观测的实际需求,且仅凭文本提示无法可靠指定场景配置。为向扩散模型提供显式视觉引导,我们提出视觉身份提示技术,将示例图像作为条件输入来引导生成目标场景配置。为此,我们还构建了可扩展流水线,从大规模机器人数据集中筛选视觉身份池。使用增强后的操纵数据训练下游视觉-语言-动作与视觉运动策略模型,在仿真和真实机器人环境中均实现了持续性能提升。
大型语言模型(LLMs)在复杂推理任务中常受限于高昂的计算成本与延迟,而资源高效的小型语言模型(SLMs)通常又缺乏必要的推理能力。现有的协同方法(如级联或路由机制)采用粗粒度操作,将整个查询任务卸载给LLM处理,当SLM能够独立完成多数推理步骤时,这种模式会导致显著的计算资源浪费。为此,我们提出RelayLLM——一种通过令牌级协同解码实现高效推理的创新框架。与路由机制不同,RelayLLM使SLM成为主动控制器,仅通过特殊指令动态调用LLM处理关键令牌,实现生成过程的“接力式”协作。我们引入包含预热阶段和群组相对策略优化(GRPO)的两阶段训练框架,指导模型在自主推理与策略性求助之间取得平衡。在六个基准测试上的实验结果表明,RelayLLM平均准确率达到49.52%,有效弥合了两种模型间的性能差距。值得注意的是,该框架仅需为总生成令牌的1.07%调用LLM,相比性能匹配的随机路由器可实现98.2%的成本降低。
大语言模型智能体已成为通过交替进行内部推理与外部工具交互来处理多轮任务的强大系统。智能体强化学习作为进一步优化这些能力的关键后训练范式,近期引起了广泛研究关注。本文提出AT^2PO(基于树搜索的轮次策略优化),一种面向多轮智能体强化学习的统一框架,解决了三大核心挑战:探索多样性不足、稀疏信用分配以及策略优化失准。AT^2PO引入轮次树结构,同步实现熵引导树扩展以进行战略探索,以及轮次信用分配以实现稀疏结果下的细粒度奖励传播。在此基础上,我们提出智能体轮次策略优化——一种与智能体交互自然决策粒度对齐的轮次级学习目标。该优化方法与树搜索正交,可无缝集成至任何多轮强化学习流程。在七个基准测试上的实验表明,该方法相较最先进基线模型平均提升达1.84个百分点,消融研究验证了各组件的有效性。代码已开源:https://github.com/zzfoutofspace/ATPO。
思维链推理已成为多模态大语言模型处理视频理解任务的重要工具,但其相对于直接回答的必要性与优势尚未得到充分探索。本文首次证明:对于强化学习训练的视频模型,直接回答方式常能达到甚至超越思维链推理的性能,尽管后者会生成逐步分析且计算成本更高。基于此发现,我们提出VideoAuto-R1视频理解框架,采用"按需推理"策略。在训练阶段,该方法遵循"思考一次,回答两次"范式:模型首先生成初始答案,随后进行推理,最终输出修正答案。两种答案均通过可验证奖励机制进行监督。在推理阶段,模型根据初始答案的置信度决定是否启动推理流程。在视频问答与定位基准测试中,VideoAuto-R1以显著提升的效率实现最先进准确率,平均响应长度缩减约3.3倍(如从149个标记降至44个)。此外,我们观察到感知型任务的思维模式激活率较低,而推理密集型任务则较高。这表明基于语言的显式推理通常有益,但并非总是必需。
视觉语言模型(VLM)虽展现出卓越性能,但仍易受对抗攻击影响。熵作为模型不确定性的度量指标,与VLM的可靠性密切相关。传统基于熵的攻击方法在所有解码步骤中最大化不确定性,其隐含假设是每个标记对生成不稳定性的贡献均等。然而我们发现,自回归生成过程中约20%的高熵标记(即关键决策点)会不成比例地主导输出轨迹。通过将对抗扰动集中作用于这些关键位置,我们仅需极小预算即可实现与全局攻击相当的语义破坏效果。更重要的是,在多个代表性VLM上,此类选择性攻击可将35-49%的良性输出转化为有害内容,暴露出更严峻的安全风险。值得注意的是,这些脆弱的高熵决策分支在不同架构的VLM中反复出现,使得跨模型迁移攻击具备可行性(对未见目标模型实现17-26%的有害转化率)。基于上述发现,我们提出熵库引导对抗攻击(EGA)方法,在实现93-95%攻击成功率的同时保持高有害转化率,从而揭示出现有VLM安全机制的新弱点。
视频世界模型旨在模拟动态的真实世界环境,但现有方法难以对相机与多目标运动实现统一且精准的控制,因为视频本质上是在投影的二维图像平面上运作动态。为弥补这一差距,我们推出VerseCrafter——一个具备四维感知能力的视频世界模型,可在统一的四维几何世界状态下实现对相机和物体动态的显式连贯控制。我们的方法核心在于新颖的四维几何控制表征,该表征通过静态背景点云和逐对象三维高斯轨迹来编码世界状态。这种表征不仅能捕捉物体的运动路径,还能呈现其随时间变化的概率性三维占据情况,为刚性边界框或参数化模型提供了灵活且与类别无关的替代方案。这些四维控制被渲染为预训练视频扩散模型的条件信号,从而生成高保真度、视角一致且严格遵循指定动态的视频。然而,另一大挑战在于缺乏具有显式四维标注的大规模训练数据。我们通过开发自动数据引擎解决了这一问题,该引擎能够从自然场景视频中提取所需的四维控制,使模型得以在海量多样化数据集上进行训练。
专家混合模型普遍被认为通过稀疏路由实现领域专业化。在本研究中,我们通过引入COMMITTEEAUDIT后验分析框架对此假设提出质疑,该框架在专家群体层面而非个体专家层面分析路由行为。通过对三个代表性模型和MMLU基准测试的分析,我们发现了跨领域不变的"常务委员会"现象——这是一个由固定路由专家组成的紧凑联盟,在不同领域、网络层和路由预算下持续占据路由质量的主导地位,即使在已包含共享专家的架构中亦然。定性分析进一步表明,常务委员会锚定推理结构和句法框架,而外围专家则处理领域特定知识。这些发现揭示了模型存在强烈的中心化计算结构偏好,表明专家混合模型中的专业化程度远低于普遍认知。这种固有偏好同时暗示,当前训练目标(如强制均衡专家利用率的负载平衡损失)可能违背模型的自然优化路径,从而限制训练效率与性能表现。
随着大语言模型即评委(LLM-as-a-Judge)技术通过规模化评估革新了人工智能评价体系,其局限性在评估对象日益复杂化、专业化与多步骤化的背景下逐渐凸显。该模式受固有偏见、浅层单次推理能力以及缺乏现实观察验证的制约,催生了智能体即评委(Agent-as-a-Judge)的范式转型。智能体评委通过规划决策、工具增强验证、多智能体协作与持久化记忆机制,实现了更鲁棒、可验证且精细化的评估。尽管智能体评估系统呈现爆发式增长,该领域仍缺乏统一框架以梳理这一变革图景。为此,我们首次提出系统性的演进综述框架:通过界定范式转变的关键维度建立发展谱系,梳理核心方法论并考察通用与专业领域的应用实践,进而剖析前沿挑战与可行研究方向,最终为新一代智能体评估技术提供清晰的发展路径图。
相机控制的生成式视频重渲染方法(如ReCamMaster)已取得显著进展。然而尽管在单视角设置中表现成功,这些方法在多视角场景下往往难以保持一致性。由于生成模型固有的随机性,确保幻觉区域的时空连贯性仍是挑战。为此,我们提出PlenopticDreamer框架,通过同步生成式幻觉来维持时空记忆。其核心思想是以自回归方式训练多输入单输出的视频条件模型,辅以相机引导的视频检索策略——该策略能自适应地从先前生成结果中选择显著视频作为条件输入。此外,我们的训练方案包含渐进式上下文扩展以提升收敛性,自条件机制以增强对误差累积导致的长程视觉退化的鲁棒性,以及长视频条件机制以支持扩展视频生成。在Basic和Agibot基准测试上的大量实验表明,PlenopticDreamer实现了最先进的视频重渲染效果,在视角同步性、视觉保真度、相机控制精度和多样化视角转换(如第三人称到第三人称、机器人操作中头部视角到夹爪视角)方面均表现优异。项目页面:https://research.nvidia.com/labs/dir/plenopticdreamer/
三维环境中的具身问答任务常需收集分散于多视角且部分遮挡的上下文信息。然而当前主流视觉语言模型受限于固定且有限的输入视角,这限制了其在推理时获取问题相关上下文的能力,并阻碍了复杂空间推理。我们提出链式视角提示框架——一种无需训练、在测试时通过粗到精的探索过程将视觉语言模型转化为主动视角推理器的解决方案。该框架首先通过视角选择代理筛选冗余帧并定位与问题对齐的锚点视角,随后通过离散相机动作与迭代推理交替进行细粒度视角调整,从底层三维场景表征中持续获取新观测,直至收集足够上下文或达到步数限制。 我们在OpenEQA基准上对四种主流视觉语言模型进行评估,链式视角提示框架在LLM-Match指标上实现平均11.56%的提升,其中Qwen3-VL-Flash模型最高提升达13.62%。该框架还展现测试时扩展性:增加最小动作预算可带来额外2.51%的平均改进,Gemini-2.5-Flash模型峰值提升达3.73%。在ScanQA和SQA3D数据集上,该框架同样表现优异(ScanQA达到116 CIDEr/31.9 EM@1,SQA3D达到51.1 EM@1)。总体而言,这些结果表明:问题导向的视角选择与开放视角搜索相结合,是一种无需额外训练即可有效提升三维具身问答空间推理能力的模型无关策略。
思维链推理虽能提升大语言模型的多步骤数学问题解决能力,但仍易受暴露偏差和错误累积的影响——早期错误会通过自回归解码不可逆地传播。本研究提出DiffCoT,一种扩散式思维链框架,将思维链推理重新定义为迭代去噪过程。DiffCoT通过滑动窗口机制在推理步骤层面融合扩散原理,在保持词元级自回归的同时,实现中间步骤的协同生成与回溯修正。为维持因果一致性,我们进一步提出遵循推理链时序结构的因果扩散噪声调度机制。在三个多步骤思维链推理基准上的大量实验表明,DiffCoT在不同模型架构中均能稳定优于现有思维链偏好优化方法,显著提升了思维链推理的鲁棒性与纠错能力。
文档问答(DocQA)致力于基于给定文档回答相关问题,然而现有DocQA智能体缺乏有效的工具调用能力,且主要依赖闭源模型。本研究提出DocDancer——一种端到端训练的开源文档智能体。我们将DocQA构建为信息检索问题,并提出一种工具驱动的智能体框架,显式建模文档探索与理解过程。为实现此类智能体的端到端训练,我们设计了"探索-合成"数据生成流程,以解决DocQA高质量训练数据匮乏的问题。在合成数据上训练的模型,于MMLongBench-Doc和DocBench两个长文本理解基准测试中均展现出色性能。进一步分析为工具化智能体设计及合成数据提供了有价值的洞见。
情境图像生成与编辑(ICGE)允许用户通过交错排列的图文提示来指定视觉概念,这要求模型精准理解并忠实执行用户意图。尽管当前统一多模态模型展现出卓越的理解能力,但这些优势往往难以有效迁移至图像生成领域。我们提出Re-Align框架,通过结构化推理引导对齐机制弥合理解与生成之间的鸿沟。其核心是情境思维链(IC-CoT)——一种将语义引导与参考关联解耦的结构化推理范式,既能提供清晰的文本目标,又可缓解参考图像间的相互干扰。此外,Re-Align引入高效的强化学习训练方案,利用代理奖励函数量化结构化推理文本与生成图像之间的对齐程度,从而全面提升模型在ICGE任务上的表现。大量实验表明,在同等模型规模与资源条件下,Re-Align在情境图像生成与编辑任务上均优于现有竞争方法。
生成模型在三维视觉中正被广泛用于合成新形状,但其生成过程是否依赖于对训练样本的记忆仍不明确。理解模型的记忆机制有助于防止训练数据泄露并提升生成结果的多样性。本文设计了一个评估框架来量化三维生成模型的记忆程度,并研究不同数据与建模方案对记忆行为的影响。我们首先应用该框架量化现有方法的记忆水平,随后通过基于隐向量集(Vecset)扩散模型的对照实验发现:在数据层面,记忆程度受数据模态影响,并随数据多样性增加和条件信息细化而上升;在建模层面,记忆水平在中等指导强度时达到峰值,但可通过延长Vecset长度和简单旋转增强来抑制。本研究的框架与分析为三维生成模型的记忆现象提供了实证依据,并提出在不降低生成质量的前提下减少记忆的简易有效策略。代码已开源:https://github.com/zlab-princeton/3d_mem。
软边界(如发丝)在自然图像和计算机生成图像中普遍存在,但由于前景与背景线索的模糊混合,它们始终是三维视觉领域的挑战。本文提出发丝守护者框架,该框架专为恢复三维视觉任务中的细粒度软边界细节而设计。具体而言,我们首先提出一种利用图像抠图数据集进行训练的新型数据构建流程,并设计深度修复网络自动识别软边界区域。通过门控残差模块,该网络能在保持全局深度质量的同时精确优化软边界周围的深度,实现与前沿深度模型的即插即用集成。在视图合成方面,我们采用基于深度的前向扭曲以保留高保真纹理,随后通过生成式场景绘制器填充遮挡解除区域并消除软边界内的冗余背景伪影。最终,色彩融合模块自适应地结合扭曲与修复结果,生成具有一致几何结构和细粒度细节的新视图。大量实验表明,HairGuard在单目深度估计、立体图像/视频转换及新视图合成任务中均达到最先进性能,尤其在软边界区域实现显著提升。
大型语言模型(LLM)的推理能力可通过强化学习(RL)被充分激发(OpenAI,2024;DeepSeek-AI等,2025a;Zeng等,2025)。现有基于强化学习的LLM研究成功通常依赖于数千乃至更多的高质量训练样本。本文通过展示单样本学习的显著有效性,对LLM强化学习中的数据需求这一基本假设提出挑战。具体而言,我们提出博识学习框架——通过设计单个能引发多学科影响的训练样本来实现这一目标。我们有三项关键发现:(1)单个经策略性筛选的数学推理样本,结合强化学习即可在物理、化学、生物等多领域产生显著性能提升;(2)对推理至关重要的数学技能揭示了最优博识样本应具备的特征;(3)融合多学科要素的工程化合成样本,其训练效果优于自然场景下的单学科样本。我们的方法在多项推理基准测试中均优于使用大规模数据集的训练效果,表明提升语言模型推理能力的关键可能在于样本质量与设计而非数量。这一研究成果指向训练范式转变——我们称之为"样本工程",即从单纯增加数据量转向对训练样本进行精准设计。
我们提出了ProFuse——一种基于3D高斯溅射(3DGS)的高效上下文感知开放词汇三维场景理解框架。该流程在直接配准框架下增强了跨视图一致性与掩码内部凝聚力,仅需极少量计算开销且无需渲染监督微调。我们摒弃了预训练3DGS场景的依赖,引入稠密对应关系引导的预配准阶段:通过跨视图聚类联合构建三维上下文提案的同时,以精确几何初始化高斯分布。每个提案携带通过成员嵌入加权聚合获得的全局特征,该特征在直接配准过程中融合至高斯基元,确保多视角下每个图元的语言连贯性。由于预先建立了关联关系,语义融合除标准重建外无需额外优化,模型在保持几何优化能力的同时无需稠密化处理。ProFuse在实现强大开放词汇3DGS理解能力的同时,单场景语义标注耗时约五分钟,较当前最优技术提速两倍。
自回归模型在图像合成领域取得了显著成功,但其序列化特性导致存在显著的延迟限制。推测解码技术为加速提供了可行路径,但现有方法受限于令牌级歧义和空间感知能力的缺失。本研究提出多尺度局部推测解码框架,通过结合多分辨率草案生成与空间感知验证机制,实现自回归图像生成的高效加速。该方法采用低分辨率草案生成器与可学习上采样器协同工作,提出候选图像令牌后由高分辨率目标模型进行并行验证。关键创新在于引入局部拒绝与重采样机制,通过在首次拒绝后聚焦空间邻域而非光栅扫描式重采样,实现草案错误的高效修正。实验表明,MuLo-SD可实现最高1.7倍的加速效果,在MS-COCO 5k验证集上经GenEval、DPG-Bench和FID/HPSv2评估,其加速性能超越EAGLE-2和LANTERN等强基线方法,同时保持相当的语义对齐度与感知质量。大量消融实验揭示了上采样设计、概率池化以及带邻域扩展的局部拒绝重采样机制的影响。本方法为图像合成领域的推测解码技术树立了新标杆,有效弥合了效率与保真度之间的鸿沟。
近期大语言模型(LLM)智能体的研究进展主要聚焦于在智能体内部嵌入自我优化机制或对大量并行变体进行搜索。虽然这些方法能够提升综合评分,但其改进轨迹往往不稳定且难以审计,导致无法确保版本间的无退化特性或有效追溯跨版本故障。我们将智能体改进重新定义为发布工程:将智能体视为可交付产物,把改进过程外化为具备回归感知的发布流水线。本文提出AgentDevel——一种迭代运行当前智能体、从执行轨迹中生成与实现无关的症状级质量信号、通过可执行诊断合成单一候选版本(RC)并基于翻转中心门控机制进行版本晋升的发布工程流水线。AgentDevel具有三大核心设计:(一)与实现无关的LLM批评器,无需访问智能体内部即可表征故障表象;(二)基于脚本的可执行诊断,能聚合主导症状模式并生成可审计的工程规范;(三)以翻转为中心的门控机制,将“通过转失败”的回归现象与“失败转通过”的修复结果作为首要评估依据。与基于群体搜索或智能体内自优化不同,AgentDevel维护单一主线版本,并将非回归性作为核心目标。在重度执行基准测试中的实验表明,AgentDevel能以显著更少的回归实现稳定改进,同时生成可复现、可审计的交付物。总体而言,AgentDevel为将LLM智能体的构建、调试与发布纳入软件开发范畴提供了实用的工程规范。
行为克隆技术正迎来新一轮的流行浪潮,因为模型与数据规模的同步扩展被证明能为诸多重要任务提供强有力的起点。本研究提出了一套开放式方案,用于训练专为消费级GPU实时推理设计的电子游戏基础模型。我们以开放许可协议发布了全部数据(8300+小时高质量人类游戏录像)、训练与推理代码及预训练模型检查点。实验表明,我们的最佳模型能够以媲美人类水平的多款3D电子游戏表现。基于该方案,我们系统性地探究了行为克隆的缩放规律,以揭示模型性能和因果推理能力如何随模型及数据规模变化。我们首先通过简单示例问题证明:对于某些因果推理类型,增加训练数据量和网络深度可使模型习得更具因果性的策略。随后系统研究了高达12亿参数的缩放模型中,因果性如何随参数量(及深度)与训练步数变化,并发现了与示例问题相似的缩放规律。
近期视频扩散模型的研究趋势已转向基于Transformer的架构,虽能实现最先进的视频生成效果,但需承受二次方注意力复杂度的代价,这严重限制了长序列的可扩展性。我们提出ReHyAt——一种融合softmax注意力保真度与线性注意力效率的循环混合注意力机制,支持分块循环重构并实现恒定内存占用。与同期仅采用线性注意力的SANA Video不同,ReHyAt的混合设计支持从现有softmax模型进行高效蒸馏,将训练成本降低两个数量级至约160 GPU小时,同时保持质量竞争力。我们的轻量级蒸馏微调流程为未来基于双向softmax的顶尖模型提供了可复用的方案。在VBench和VBench-2.0上的实验及人类偏好研究表明,ReHyAt在将注意力成本从二次方降至线性的同时,实现了最先进的视频生成质量,为长时序视频生成及端侧部署提供了实用化扩展能力。项目页面详见https://qualcomm-ai-research.github.io/rehyat。
本文研究如何将特权信息学习范式融入目标检测,通过利用训练阶段可获得的细粒度描述性信息(推理阶段不可用)来提升性能。我们提出一种与模型无关的通用方法,通过师生架构将边界框掩码、显著图、深度线索等特权信息注入基于深度学习的目标检测器。在五种先进目标检测模型和多个公共基准数据集(包括基于无人机的垃圾检测数据集和Pascal VOC 2012)上的实验表明,该方法能有效提升检测精度、泛化能力和计算效率。研究结果显示,经特权信息训练的学生模型始终优于基线模型,在未增加推理复杂度或模型参数量的情况下显著提高检测精度。其中中大型物体的性能提升尤为明显,消融实验表明对教师指导进行中间加权能最优平衡特权信息与标准输入的学习。本研究证实特权信息学习框架为资源受限环境和实际应用场景中的目标检测系统提供了一种高效实用的改进策略。
扩散模型的后训练对齐通常依赖简化信号,如标量奖励或二元偏好,这限制了与层次化、细粒度的人类专业知识的契合。为解决此问题,我们首先联合领域专家构建了层次化细粒度评估标准,将图像质量解构为以树状结构组织的多维度正负属性。基于此,我们提出两阶段对齐框架:首先通过监督微调将领域知识注入辅助扩散模型;随后提出复合偏好优化(CPO),将DPO扩展至非二元层次化标准对齐。具体而言,我们重新形式化对齐问题,使其在辅助扩散模型引导下同步最大化正属性概率并最小化负属性概率。我们在绘画生成领域实例化了该方法,基于标注的细粒度属性画作数据集进行CPO训练。大量实验表明,CPO显著提升了生成质量与专业契合度,为细粒度标准对齐开辟了新路径。
近期提出的金字塔模型将传统的正向与反向扩散过程分解为多尺度处理阶段。这些模型在低分辨率下处理高噪声输入,而在高分辨率下处理低噪声输入。这种分层方法显著降低了多步去噪模型的推理计算成本。然而,现有开源金字塔视频模型均需从头训练,且在视觉合理性方面往往逊于顶尖系统。本研究提出一种通过低成本微调将预训练扩散模型转化为金字塔模型的流程,在保持生成视频质量无损的同时实现模型转换。此外,我们探索并比较了金字塔模型内部的多步骤蒸馏策略,以进一步提升推理效率。研究成果详见https://qualcomm-ai-research.github.io/PyramidalWan。
我们推出IMDD-1M——首个包含100万对齐图文对的大规模工业多模态缺陷数据集,旨在推动制造业与质量检测领域的多模态学习。该数据集涵盖60余种材料类别、400多种缺陷类型的高分辨率真实缺陷样本,每个样本均配备专家核验的标注信息及描述缺陷位置、严重程度与上下文属性的细粒度文本说明。本数据集支持分类、分割、检索、描述生成和生成式建模等广泛应用。基于IMDD-1M,我们从头训练了专为工业场景定制的扩散式视觉语言基础模型。该模型作为通用化基础架构,可通过轻量级微调高效适配专业领域:仅需专用专家模型不足5%的任务特定数据,即可实现相当性能,彰显了数据高效的基础模型适配在工业检测与生成领域的潜力,为可扩展、领域自适应及知识驱动的智能制造开辟了新路径。
本研究提出VERSE方法,通过探索视觉语言模型在视觉富文档理解任务中的视觉嵌入空间,实现对这些模型的分析与优化。该技术能够可视化潜在表征,辅助评估模型可行性,并支持识别问题区域以指导生成针对性合成数据。我们在合成数据集MERIT上训练模型,并在真实场景数据集MERIT Secret上验证:结果表明VERSE能有效揭示易出错簇的视觉特征,而针对这些特征的样本重训练可在保持泛化能力的同时显著提升F1值。此外,实验证明Donut、Idefics2等本地模型经VERSE优化后,其性能可媲美甚至超越GPT-4、Pixtral等SaaS解决方案。
随着对话智能体在与用户协作过程中不断积累经验,适应不同用户偏好对于建立长期关系、持续提升协作质量至关重要。本文提出MultiSessionCollab基准测试,用于评估智能体在多轮会话中学习用户偏好并利用这些偏好提升协作质量的能力。为构建适用于该场景的智能体,我们开发了具备长期协作能力的智能体架构,其通过持续积累交互经验来维护并优化用户偏好记忆库。此外,我们证明可从MultiSessionCollab中的用户模拟器行为提取学习信号,用以训练智能体生成更全面的反思并更有效地更新记忆。大量实验表明,配备记忆模块的智能体能够显著提升长期协作效果,具体表现为任务成功率提高、交互效率提升以及用户操作负担减轻。最后,我们开展的人类用户研究证实,记忆机制在实际应用场景中能有效改善用户体验。
安全对齐大语言模型(LLM)的微调可能严重损害其安全性。现有方法通常需要大量安全样本或校准数据集,这不仅在重新对齐过程中产生显著计算开销,还会导致模型实用性明显下降。与传统认知相反,我们发现仅需单个安全样本即可完全恢复安全对齐,且不会牺牲实用性或产生过高成本。值得注意的是,这种恢复效果与微调时使用的有害样本数量或基础模型规模无关,仅需少量训练周期即可实现收敛。此外,我们揭示了安全梯度的低秩结构特性,这解释了为何能实现如此高效的修正。我们在五个安全对齐LLM和多个数据集上验证了发现,证明了该方法的普适性。
我们推出LEMAS数据集,据我们所知这是当前最大的开源多语种语音语料库,具备词级时间戳标注。该数据集覆盖10种主要语言,总时长超过15万小时,通过高效的数据处理流程构建,确保高质量数据与标注。为验证LEMAS数据集在不同生成范式下的有效性,我们基于该数据集训练了两种不同架构与任务专长的基准模型。基于非自回归流匹配框架的LEMAS-TTS模型,充分利用数据集的规模优势与语言多样性,实现了鲁棒的零样本多语言合成。我们提出的口音对抗训练与CTC损失函数有效缓解跨语言口音问题,提升合成稳定性。与之互补的LEMAS-Edit模型采用自回归解码器架构,将语音编辑建模为掩码标记填充任务。通过精确的词级对齐信息构建训练掩码,并采用自适应解码策略,该模型实现了边界平滑、过渡自然的无缝语音编辑。实验结果表明,基于LEMAS数据集训练的模型能提供高质量的合成与编辑性能,印证了数据集的优质特性。我们期待这一具备丰富时间戳标注的细粒度多语种语料库,能推动基于提示的语音生成系统未来发展。