每日精选AI研究论文及翻译
我们推出ComfyUI-Copilot,这是一款基于大型语言模型的插件,旨在提升ComfyUI这一开源AI艺术创作平台的易用性和效率。尽管ComfyUI具备灵活性和用户友好界面,但对新手而言,仍面临文档有限、模型配置错误及工作流设计复杂等挑战。ComfyUI-Copilot通过提供智能节点与模型推荐,以及自动化的一键工作流构建,有效应对了这些问题。其核心采用了一个层次化的多代理框架,包括一个负责任务分配的中心助理代理和针对不同用途的专业工作代理,辅以我们精心整理的ComfyUI知识库,以简化调试与部署流程。我们通过离线定量评估和在线用户反馈验证了ComfyUI-Copilot的有效性,证明其能准确推荐节点并加速工作流开发。此外,应用案例表明,ComfyUI-Copilot降低了初学者的入门门槛,同时提升了资深用户的工作流效率。ComfyUI-Copilot的安装包及演示视频可在https://github.com/AIDC-AI/ComfyUI-Copilot获取。
在本研究中,我们推出了Qwen3 Embedding系列,这一系列在Qwen3基础模型之上构建,相较于前代GTE-Qwen系列,在文本嵌入与重排序能力上实现了显著提升。依托Qwen3大语言模型在多语言文本理解与生成方面的强大能力,我们创新的多阶段训练流程结合了大规模无监督预训练与高质量数据集上的有监督微调。有效的模型融合策略进一步确保了Qwen3 Embedding系列的鲁棒性与适应性。在训练过程中,Qwen3大语言模型不仅作为骨干模型,还在跨领域、跨语言合成高质量、丰富多样的训练数据方面发挥了关键作用,从而优化了训练流程。Qwen3 Embedding系列提供了多种模型规模(0.6B、4B、8B)以适应嵌入与重排序任务,满足用户在不同部署场景下对效率或效果优化的需求。实证评估表明,Qwen3 Embedding系列在多样化基准测试中均达到了业界领先水平,尤其在多语言文本嵌入评估基准MTEB上表现卓越,同时在代码检索、跨语言检索及多语言检索等多种检索任务中亦展现出优异性能。为促进研究的可重复性并推动社区驱动的研发,Qwen3 Embedding模型已依据Apache 2.0许可证公开发布。
近期基于扩散模型的视频修复(VR)技术取得了显著进展,在视觉质量上实现了大幅提升,但在推理过程中却带来了难以承受的计算成本。尽管已有多种基于蒸馏的方法展示了一步式图像修复的潜力,但将这些方法扩展到视频修复领域仍面临挑战且研究不足,尤其是在处理现实场景中的高分辨率视频时。本研究中,我们提出了一种名为SeedVR2的一步式扩散视频修复模型,该模型通过对抗训练针对真实数据进行视频修复。为了在单步内应对高分辨率视频修复的挑战,我们在模型架构和训练流程中引入了多项改进。具体而言,我们提出了一种自适应窗口注意力机制,其中窗口大小会根据输出分辨率动态调整,从而避免了使用预设窗口大小时在高分辨率视频修复中出现的窗口不一致问题。为了稳定并提升对抗训练在视频修复中的效果,我们进一步验证了一系列损失函数的有效性,包括提出的特征匹配损失,且未显著牺牲训练效率。大量实验表明,SeedVR2在单步操作中能够达到与现有视频修复方法相当甚至更优的性能。
新兴的世界模型能够根据动作(如相机移动和文本提示等控制信号)自回归地生成视频帧。由于时间上下文窗口大小的限制,这些模型在场景重访时往往难以保持一致性,导致对先前生成环境的严重遗忘。受人类记忆机制的启发,我们引入了一种新颖的框架,通过基于几何的长期空间记忆来增强视频世界模型的长期一致性。该框架包含存储和检索长期空间记忆信息的机制,并精心策划了定制数据集,用于训练和评估具有明确存储3D记忆机制的世界模型。我们的评估结果显示,与相关基线相比,在质量、一致性和上下文长度方面均有提升,为长期一致的世界生成铺平了道路。
大型语言模型(LLMs)通常基于海量未经授权的文本进行训练,这一做法因可能涉及知识产权侵权及伦理问题而受到审视。采用公开授权文本训练LLMs是解决这些问题的初步尝试,但此前数据收集工作所得的数据集规模过小或质量欠佳,难以训练出高性能的LLMs。为填补这一空白,我们收集、整理并发布了Common Pile v0.1,这是一个专为LLM预训练设计的、总量达8TB的公开授权文本集合。Common Pile汇集了来自30个不同领域的内容,涵盖研究论文、代码、书籍、百科全书、教育材料、音频转录文本等。尤为关键的是,我们通过在Common Pile文本上训练两个70亿参数的LLMs——Comma v0.1-1T和Comma v0.1-2T(分别基于1万亿和2万亿token训练),验证了我们的努力。这两个模型在性能上均能与使用相似计算预算、基于未授权文本训练的LLMs(如Llama 1和2 7B)相媲美。除了发布Common Pile v0.1本身,我们还公开了其构建过程中使用的代码,以及Comma v0.1模型的训练混合方案和检查点。
空间指代是具身机器人与三维物理世界交互的一项基本能力。然而,即便借助强大的预训练视觉语言模型(VLMs),现有方法仍难以准确理解复杂的三维场景,并动态推理出指令所指的交互位置。为此,我们提出了RoboRefer,这是一种具备三维感知能力的VLM,它首先通过监督微调(SFT)整合了一个解耦但专用的深度编码器,实现了精确的空间理解。此外,RoboRefer通过强化微调(RFT)推进了广义的多步空间推理,其中设计了针对空间指代任务的度量敏感过程奖励函数。为了支持SFT和RFT训练,我们引入了RefSpatial,一个包含2000万问答对(是之前的两倍)的大规模数据集,涵盖31种空间关系(之前为15种),并支持复杂的推理过程(最多5步)。同时,我们还推出了RefSpatial-Bench,一个填补了多步推理空间指代评估空白的挑战性基准。实验表明,经过SFT训练的RoboRefer在空间理解上达到了最先进水平,平均成功率高达89.6%。经过RFT训练的RoboRefer更是大幅超越所有基线模型,在RefSpatial-Bench上的平均准确率甚至超过了Gemini-2.5-Pro达17.4%。值得注意的是,RoboRefer能够与多种控制策略集成,在杂乱的真实世界场景中,跨多种机器人(如UR5、G1人形机器人)执行长时程、动态任务。
Transformer模型在处理长上下文推理时面临挑战,因其时间复杂度和内存复杂度分别呈二次方和线性增长。循环记忆Transformer(RMTs)通过将渐近成本降低至线性时间和恒定内存使用,提供了解决方案。然而,其内存更新机制导致顺序执行,形成性能瓶颈。 我们引入了对角线批处理(Diagonal Batching),一种调度方案,它能在保持精确循环的同时,释放RMTs中跨段并行处理的潜力。该方法消除了顺序执行的限制,使得即便对于单个长上下文输入,也能实现高效的GPU推理,无需复杂的批处理和流水线技术。由于该技术纯粹是运行时计算顺序的重排,现有RMT模型无需重新训练即可采用。 应用于LLaMA-1B ARMT模型时,对角线批处理在131,072个token的序列上,相比标准全注意力LLaMA-1B实现了3.3倍的加速,相较于顺序RMT实现也有1.8倍的提升。通过消除顺序瓶颈,对角线批处理降低了推理成本和延迟,从而巩固了RMTs作为现实世界长上下文应用实用解决方案的地位。
我们推出Surfer-H,这是一款经济高效的网络代理,它集成了视觉-语言模型(VLM)以执行用户定义的网页任务。我们将其与Holo1配对,后者是一个专精于网页导航与信息提取的新开放权重VLM集合。Holo1基于精心筛选的数据源训练而成,包括开放获取的网页内容、合成示例及自产代理数据。Holo1在通用用户界面(UI)基准测试及我们新推出的网页UI定位基准WebClick上均表现卓越。搭载Holo1的Surfer-H在WebVoyager上实现了92.2%的顶尖性能,在准确性与成本效益间达到了帕累托最优平衡。为加速代理系统研究进展,我们开源了WebClick评估数据集及Holo1模型权重。
推理时扩展通过生成长度更大或更并行的序列,以牺牲效率为代价提升推理准确性。然而,在Transformer大语言模型(LLMs)中,生成成本的关键瓶颈在于键值(KV)缓存的大小,而非生成的令牌数量。因此,我们探索了推理时的超扩展技术:通过压缩KV缓存,我们能在相同的计算预算内生成更多令牌,从而进一步提升扩展推理的准确性。但这一方法的成功,关键在于压缩技术能否在高压缩比下仍保持准确性。为使超扩展技术实用化,我们提出了动态记忆稀疏化(DMS),这是一种新颖的KV缓存稀疏化方法,仅需1K训练步骤即可实现8倍压缩,同时保持比无需训练的稀疏注意力更高的准确性。DMS不急于丢弃缓存令牌,而是延迟令牌淘汰,隐式合并表示并保留关键信息。我们通过DMS在多个LLM家族上验证了推理时超扩展的有效性,表明其在相近的推理运行时间和内存负载下提升了准确性。例如,在AIME 24上,我们将Qwen-R1 32B平均提升了9.1分,在GPQA上提升了7.6分,在LiveCodeBench上提升了9.6分,覆盖了不同的计算预算。
本文提出了一种新颖的框架,通过利用基于流的生成模型作为先验,将可学习的潜在空间与任意目标分布对齐。我们的方法首先在目标特征上预训练一个流模型,以捕捉其底层分布。随后,这个固定的流模型通过一种对齐损失来正则化潜在空间,该损失重新表述了流匹配目标,将潜在变量视为优化目标。我们正式证明了最小化这种对齐损失,为在目标分布下最大化潜在变量对数似然的变分下界建立了一个计算上可行的替代目标。值得注意的是,所提出的方法消除了计算昂贵的似然评估,并避免了优化过程中的常微分方程求解。作为概念验证,我们在受控环境中展示了对齐损失景观紧密逼近目标分布的负对数似然。我们进一步通过在ImageNet上进行大规模图像生成实验,针对多样化的目标分布验证了方法的有效性,并辅以详细的讨论和消融研究。通过理论和实证的双重验证,我们的框架为潜在空间对齐开辟了一条新途径。
现实世界视频场景中的数学推理提出了与静态图像或文本截然不同的挑战。它要求解析细粒度的视觉信息、准确读取手写或数字文本,并整合分散在时间线上非线性分布的语音线索。在此类多模态情境下,成功不仅依赖于感知能力,更在于从丰富且嘈杂的内容流中有选择地识别并整合正确的上下文细节。为此,我们推出了VideoMathQA这一基准测试,旨在评估模型是否能在视频中执行这种跨模态的长时间推理。该基准涵盖10个不同的数学领域,视频时长从10秒到超过1小时不等,要求模型解析结构化的视觉内容、理解教学叙述,并在视觉、音频和文本模态间联合锚定概念。我们聘请了研究生级别的专家进行高质量标注,总计超过920人时。为了反映真实世界场景,问题设计围绕三大核心推理挑战:直接问题求解,即答案基于所提问题;概念迁移,要求将已学方法应用于新问题;以及深度教学理解,涉及对扩展解释和部分解答的多步骤推理。每个问题均包含多步骤推理标注,便于对模型能力进行细粒度诊断。通过这一基准,我们揭示了现有方法的局限性,并为那些必须在时间延伸且模态丰富的数学问题场景中进行推理(而非仅感知)的模型建立了一个系统化的评估框架。我们的基准及评估代码已公开于:https://mbzuai-oryx.github.io/VideoMathQA。
近期,文本到视频(T2V)扩散模型的进展实现了高保真且逼真的视频合成。然而,当前的T2V模型由于内在物理理解能力的局限,往往难以生成物理上合理的内容。我们发现,尽管T2V模型内部的表征具备一定的物理理解能力,但与近期视频自监督学习方法相比仍存在显著差距。为此,我们提出了一种名为VideoREPA的新框架,通过对齐令牌级关系,将视频理解基础模型中的物理理解能力蒸馏至T2V模型中,从而缩小物理理解的鸿沟,实现更符合物理规律的生成。具体而言,我们引入了令牌关系蒸馏(TRD)损失,利用时空对齐提供适合微调强大预训练T2V模型的软指导,这是对先前表征对齐(REPA)方法的重要突破。据我们所知,VideoREPA是首个专为微调T2V模型并注入物理知识而设计的REPA方法。实证评估表明,VideoREPA显著提升了基线方法CogVideoX的物理常识理解能力,在相关基准测试上取得了显著进步,并展现出生成符合直觉物理视频的强大能力。更多视频结果请访问https://videorepa.github.io/。
尽管视频理解领域取得了进展,当前的多模态大语言模型(MLLMs)在计数任务上仍面临挑战。现有基准测试受限于短视频、封闭式查询、线索标注缺失以及多模态覆盖不足。本文提出了CG-AV-Counting,一个手工标注的基于线索的计数基准,包含497个长视频中的1,027个多模态问题和5,845个标注线索。该基准支持黑盒与白盒评估,为端到端及基于推理的计数提供了全面的测试平台。为探索提升模型计数能力的途径,我们提出了AV-Reasoner模型,该模型通过GRPO和课程学习训练,旨在从相关任务中泛化计数能力。AV-Reasoner在多个基准测试中达到了最先进的成绩,验证了强化学习的有效性。然而,实验表明,在域外基准测试中,语言空间内的推理未能带来性能提升。代码与基准测试已发布于https://av-reasoner.github.io。
以Deepseek-R1-Distill系列为代表的推理模型,因其在数学、科学、编程等领域的卓越表现,已被开源社区广泛采用。然而,我们的研究发现,这些模型的基准评估结果受多种因素影响,存在显著波动。评估条件的细微差异可能导致结果的大幅变化。类似现象也出现在基于Deepseek-R1-Distill系列微调的其他开源推理模型以及QwQ-32B模型中,使得它们宣称的性能提升难以稳定复现。因此,我们倡导建立更为严格的模型性能评估范式,并在此分享我们对Deepseek-R1-Distill系列模型的实证评估。
空间认知是人类智能的核心,它使我们能够通过视觉模拟而非单纯依赖言语推理来解决问题。然而,现有的AI基准测试主要评估言语推理能力,忽视了非语言、多步骤视觉模拟的复杂性。为此,我们推出了STARE(空间变换与推理评估),这是一个旨在严格评估多模态大语言模型在更适于通过多步骤视觉模拟解决的任务上表现的基准。STARE包含4000项任务,涵盖基础几何变换(2D与3D)、综合空间推理(立方体展开图与七巧板拼图)以及现实世界空间推理(透视与时间推理),这些任务反映了诸如物体组装、机械图纸解读及日常空间导航等实际认知挑战。我们的评估显示,模型在较简单的2D变换推理上表现出色,但在需要多步骤视觉模拟的复杂任务,如3D立方体展开图与七巧板拼图上,表现接近随机猜测。人类在这些复杂任务上虽能达到近乎完美的准确率,但耗时较长(最多28.9秒),而借助中间视觉模拟可显著加快速度(平均减少7.5秒)。相比之下,模型在视觉模拟带来的性能提升上表现不一,多数任务有所改善,但在特定情况下如七巧板拼图(GPT-4o, o1)和立方体展开图(Claude-3.5, Gemini-2.0 Flash)中反而下降,这表明模型可能尚未掌握如何有效利用中间视觉信息。
搜索增强型语言模型将网络搜索与大型语言模型(LLMs)相结合,以提升回答的准确性和时效性。然而,分析这些系统仍具挑战性:现有数据集规模有限且范围狭窄,通常局限于静态、单轮的事实核查问题。在本研究中,我们引入了Search Arena,一个众包的大规模人类偏好数据集,包含超过24,000对多轮用户与搜索增强型LLMs的交互记录。该数据集涵盖多种意图和语言,并包含完整的系统追踪信息及约12,000次人类偏好投票。我们的分析显示,用户偏好受引用数量的影响,即使引用的内容并未直接支持所归因的主张,揭示了感知可信度与实际可信度之间的差距。此外,用户偏好因引用来源而异,表明社区驱动平台普遍更受青睐,而静态百科全书式来源并非总是恰当可靠。为评估不同环境下的性能,我们进行了跨领域分析,测试了搜索增强型LLMs在通用聊天环境中的表现,以及传统LLMs在搜索密集型场景下的表现。我们发现,在网络搜索不降低甚至可能提升非搜索环境性能的同时,若仅依赖模型的参数知识,搜索环境中的质量将显著受影响。我们开源了该数据集,以支持未来此方向的研究。我们的数据集和代码可在以下网址获取:https://github.com/lmarena/search-arena。
在长序列数据上训练语言模型是提升模型处理复杂任务(如长链推理)能力的关键需求。然而,随着序列长度的增加,反向传播(BP)过程中存储激活值的内存开销变得极为庞大,即便应用了梯度检查点技术。为应对这一挑战,我们提出了一种内存高效且精确的反向传播方法——StreamBP,该方法沿序列维度逐层进行链式法则的线性分解,显著降低了激活值和逻辑值的内存消耗。所提方法适用于诸如SFT、GRPO和DPO等常见目标函数。从实现角度看,StreamBP通过利用语言模型的因果结构,实现了更少的计算浮点操作(FLOPs)和更快的反向传播速度。与梯度检查点相比,StreamBP将反向传播的最大序列长度扩展了2.8至5.5倍,同时使用相当甚至更少的反向传播时间。值得注意的是,StreamBP的序列长度扩展能力可直接转化为批量大小扩展,以加速训练。我们进一步开发了一种通信高效的分布式StreamBP,有效支持多GPU训练,拓宽了其应用范围。我们的代码可轻松集成到任何Transformer模型的训练流程中,代码已发布于https://github.com/Ledzy/StreamBP。
多模态大语言模型(MLLMs)通常通过扩展预训练的大语言模型(LLMs)以融入视觉能力而构建。在本研究中,我们深入探究了MLLMs如何处理视觉输入,特别聚焦于其注意力机制的分析。我们揭示了一个令人惊讶的稀疏性现象:在LLMs中,仅有少数(约不足5%)的注意力头对视觉理解起到积极作用,这些被称为视觉头。为了高效识别这些视觉头,我们设计了一种无需训练的框架,通过定向响应分析量化各头的视觉相关性。基于这一发现,我们提出了SparseMM,一种KV-Cache优化策略,它依据各头的视觉评分,为LLMs中的头分配非对称计算预算,利用视觉头的稀疏性加速MLLMs的推理过程。与以往忽视视觉特殊性的KV-Cache加速方法相比,SparseMM在解码过程中优先保障并保留视觉语义。在主流多模态基准上的广泛评估表明,SparseMM实现了更优的精度与效率平衡。值得注意的是,SparseMM在生成过程中实现了1.38倍的实时加速和52%的内存减少,同时在效率测试中保持了性能一致。我们的项目已开源,地址为https://github.com/CR400AF-A/SparseMM。
多模态大语言模型(MLLMs)的兴起推动了以自我为中心视觉应用的突破性进展。这些应用要求对物体具有持续且情境感知的理解能力,因为用户需在动态且杂乱的环境中与工具互动。然而,现有的具身基准主要集中于静态场景探索,强调物体的外观和空间属性,而忽视了对用户互动引发的动态变化进行评估。为填补这一空白,我们推出了EOC-Bench,一个旨在系统评估动态自我中心场景下物体中心具身认知的创新基准。特别地,EOC-Bench包含3,277对精心标注的问答对,分为过去、现在和未来三个时间类别,涵盖11个细粒度评估维度和3种视觉物体引用类型。为确保全面评估,我们开发了一个混合格式的人机协作标注框架,包含四种问题类型,并设计了一种新颖的多尺度时间准确性指标,用于开放式时间评估。基于EOC-Bench,我们对多种专有、开源及物体级别的MLLMs进行了全面评估。EOC-Bench作为提升MLLMs具身物体认知能力的关键工具,为开发可靠的具身系统核心模型奠定了坚实基础。
纹理贴图制作是三维建模中的重要环节,直接决定了渲染质量。近年来,基于扩散模型的方法为纹理生成开辟了新途径。然而,受限的控制灵活性和有限的提示模态可能阻碍创作者实现预期效果。此外,生成的多视角图像间的不一致性往往导致纹理生成质量欠佳。针对这些问题,我们提出了FlexPainter,一种新颖的纹理生成流程,它支持灵活的多模态条件引导,并实现了高度一致的纹理生成。我们构建了一个共享的条件嵌入空间,以在不同输入模态间进行灵活聚合。利用这一嵌入空间,我们提出了一种基于图像的CFG方法,用于分解结构与风格信息,实现基于参考图像的风格化。借助图像扩散先验中的三维知识,我们首先采用网格表示同时生成多视角图像,以增强全局理解。同时,我们在扩散采样过程中引入了视角同步与自适应加权模块,进一步确保局部一致性。最后,结合纹理增强模型的三维感知纹理补全模型被用于生成无缝、高分辨率的纹理贴图。综合实验表明,我们的框架在灵活性和生成质量上均显著优于现有最先进方法。
链式思维(CoT)已显著提升了大型语言模型(LLMs)在数学推理方面的能力,但将其扩展至多模态领域仍面临挑战。现有研究要么对图像输入采用类似的文本推理方法,要么尝试将视觉信号交织到数学CoT中。然而,它们在解决数学问题时存在三个关键局限:依赖粗粒度的矩形图像区域、视觉编码器对数学内容的感知有限,以及对外部视觉修改能力的依赖。本文提出MINT-CoT,通过引入数学交织标记(Mathematical INterleaved Tokens)来实现链式思维视觉推理。MINT-CoT利用交织标记自适应地将相关视觉标记融入文本推理步骤,该标记能动态选择数学图形内任意形状的视觉区域。为增强这一能力,我们构建了MINT-CoT数据集,包含54K个数学问题,每个推理步骤都与标记级别的视觉区域精确对齐,并配备严格的数据生成流程。此外,我们提出了三阶段MINT-CoT训练策略,逐步结合纯文本CoT SFT、交织CoT SFT和交织CoT RL,最终得到MINT-CoT-7B模型。大量实验验证了该方法在数学领域进行有效视觉交织推理的优越性,MINT-CoT-7B在MathVista、GeoQA和MMStar上的表现分别比基线模型高出+34.08%、+28.78%和+23.2%。我们的代码和数据可在https://github.com/xinyan-cxy/MINT-CoT获取。
深度图在基于前馈的三维高斯泼溅(3DGS)流程中被广泛应用,通过将其反投影为三维点云以进行新视角合成。该方法具有训练效率高、可利用已知相机位姿以及几何估计精确等优势。然而,物体边界处的深度不连续性常导致点云碎片化或稀疏,从而降低渲染质量——这是基于深度表示的一个公认局限。为解决这一问题,我们提出了PM-Loss,一种基于预训练变换器预测的点图的新型正则化损失。尽管点图本身的准确性可能不及深度图,但它能有效增强几何平滑性,特别是在物体边界周围。借助改进后的深度图,我们的方法显著提升了不同架构和场景下的前馈3DGS,实现了更为一致的优质渲染效果。项目页面:https://aim-uofa.github.io/PMLoss
当前,建立语言-图像对齐的主流方法是通过对比学习联合预训练文本和图像编码器,如CLIP及其变体。在本研究中,我们质疑这种高成本的联合训练是否必要。具体而言,我们探讨了预训练且固定的大型语言模型(LLM)是否能够提供足够优秀的文本编码器来指导视觉表示学习。为此,我们提出了一种仅训练图像编码器、利用LLM中的固定文本编码器学习语言-图像对齐的方法,简称LIFT。令人惊讶的是,通过全面的基准测试和消融研究,我们发现这一极大简化的LIFT框架极为有效,在涉及组合理解和长文本描述的大多数场景中超越了CLIP,同时在计算效率上取得了显著提升。我们的工作迈出了系统探索LLM文本嵌入如何引导视觉学习的第一步,并为学习语言对齐的视觉表示提供了一种替代设计思路。
自回归(AR)图像生成模型因其在合成质量上的突破性进展而日益受到关注,这凸显了为防止滥用而需采用鲁棒水印技术的必要性。然而,现有的生成过程中水印技术主要针对扩散模型设计,其中水印被嵌入扩散潜在状态中。这种设计对直接适配于通过令牌预测顺序生成图像的AR模型构成了显著挑战。此外,基于扩散的再生攻击能够通过扰动扩散潜在状态有效抹除此类水印。为解决这些挑战,我们提出了词汇偏置水印(Lexical Bias Watermarking, LBW),一种专为AR模型设计、能抵御再生攻击的新颖框架。LBW通过在生成过程中偏向于预定义的“绿色列表”来选择令牌,直接将水印嵌入令牌映射中。这种方法确保了与现有AR模型的无缝集成,并自然延伸至事后水印处理。为增强对白盒攻击的安全性,每幅图像的绿色列表并非单一,而是从绿色列表池中随机抽取。水印检测则通过令牌分布的量化与统计分析来完成。大量实验证明,LBW在抵抗再生攻击方面展现出卓越的水印鲁棒性。
基于多模态输入(包括文本、图像和视频)引导的音频条件说话肖像生成与编辑领域仍待深入探索。本文提出了SkyReels-Audio,一个用于合成高保真且时序连贯的说话肖像视频的统一框架。该框架建立在预训练的视频扩散变换器基础之上,支持无限长度的生成与编辑,同时通过多模态输入实现多样化和可控的条件引导。我们采用混合课程学习策略,逐步对齐音频与面部动作,从而实现对长视频序列的细粒度多模态控制。为了增强局部面部一致性,我们引入了面部掩码损失和音频引导的无分类器指导机制。滑动窗口去噪方法进一步融合了跨时间段的潜在表示,确保了在长时间跨度和多样身份下的视觉保真度和时序一致性。更重要的是,我们构建了一个专门的数据管道,用于筛选高质量的音频、视频及文本描述同步三元组。全面的基准评估表明,SkyReels-Audio在唇形同步准确性、身份一致性以及真实面部动态表现上均取得了卓越性能,尤其在复杂和挑战性条件下表现尤为突出。
本文探讨了重建具有复杂运动动态3D场景的挑战。近期一些研究通过在规范空间中定义3D高斯基元,并利用变形场将规范基元映射至观测空间,实现了实时动态视图合成。然而,由于优化变形场的难度,这些方法在处理复杂运动场景时往往表现不佳。为解决这一问题,我们提出了FreeTimeGS,一种新颖的4D表示方法,允许高斯基元在任意时间和位置出现。与规范高斯基元相比,我们的表示具有更强的灵活性,从而提升了动态3D场景的建模能力。此外,我们为每个高斯基元赋予了一个运动函数,使其能够随时间推移移动到邻近区域,这减少了时间冗余。在多个数据集上的实验结果表明,我们的方法在渲染质量上大幅超越了近期的方法。
我们从实际效率的角度重新审视了测试阶段的扩展规律,揭示出较小模型的有效性被显著高估。先前基于计算最优性的研究忽视了推理策略(如Best-of-N、长链思维)引入的关键内存访问瓶颈。我们的全面分析覆盖了从0.6B到32B参数的模型,发现了一种新的动力学扩展定律,该定律通过综合考虑计算和内存访问成本,更好地指导资源分配。动力学扩展定律表明,在模型规模超过某一阈值后,测试阶段的计算资源使用效率更高。一个关键原因在于,在测试阶段,注意力机制而非参数数量成为了主导成本因素。受此启发,我们提出了一种以稀疏注意力为核心的新扩展范式,它降低了每个token的成本,使得在相同资源预算下能够生成更长的序列和更多的并行样本。实证结果显示,稀疏注意力模型在低成本区域持续超越密集模型,在AIME问题解决准确率上实现了超过60分的提升,在高成本区域也取得了超过5分的增益,这一评估涵盖了当前最先进的混合专家模型(MoEs)。这些结果表明,稀疏注意力对于充分发挥测试阶段扩展潜力至关重要,因为与训练阶段参数扩展趋于饱和不同,测试阶段的准确率通过增加生成量持续提升。相关代码已发布于https://github.com/Infini-AI-Lab/Kinetics。
在可迁移学习的研究中,针对多种重要基础模型,通过获取缩放定律来预测其在更大规模下的特性与性能。本文展示了如何利用缩放定律的推导进行模型与数据集的比较,从而决定哪种预训练方法更为优选。首次基于密集测量,在广泛的模型规模与样本规模范围内,为两种关键的语言-视觉学习方法——仅使用对比损失的CLIP和结合对比与文本生成损失的MaMMUT——推导出了完整的缩放定律。为确保对未见过数据点的预测准确性,我们运用这些缩放定律对两种模型进行比较,发现MaMMUT在规模扩展时展现出更强的改进潜力及优于标准CLIP的样本效率。为增强比较的有效性,我们展示了多种下游任务(分类、检索、分割)及不同开放数据集(DataComp、DFN、Re-LAION)上的缩放定律,观察到一致的趋势。我们还证明,在采用恒定学习率计划推导缩放定律时,也能进行此类比较,从而降低计算成本。精确推导缩放定律为跨规模范围进行模型与数据集比较提供了手段,避免了仅基于单一参考规模测量得出的误导性结论,为系统比较和改进开放基础模型及其构建数据集铺平了道路。我们发布了所有预训练模型及其中间检查点,包括在DataComp-1.4B的12.8B样本上训练、实现80.3%零样本ImageNet-1k准确率的openMaMMUT-L/14。论文中实验复现代码及原始实验数据可在https://github.com/LAION-AI/scaling-laws-for-comparison 获取。
通用对象合成(GOC)旨在将目标对象无缝融入背景场景中,同时满足所需的几何属性,并保留其细粒度的外观细节。现有方法通过提取语义嵌入并将其整合到先进的扩散模型中,以实现几何可编辑的生成。然而,这些高度压缩的嵌入仅编码了高层次语义线索,不可避免地丢失了细粒度的外观细节。我们提出了一种解耦几何可编辑与外观保持的扩散模型(DGAD),该模型首先利用语义嵌入隐式捕捉所需的几何变换,随后通过交叉注意力检索机制将细粒度外观特征与几何编辑后的表示对齐,从而在对象合成中实现精确的几何编辑和忠实的外观保持。具体而言,DGAD基于CLIP/DINO衍生网络和参考网络提取语义嵌入和外观保持表示,并以解耦方式无缝整合到编码与解码流程中。我们首先将语义嵌入整合到预训练的扩散模型中,这些模型展现出强大的空间推理能力,以隐式捕捉对象几何,从而促进灵活的对象操控并确保有效的可编辑性。接着,我们设计了一种密集交叉注意力机制,利用隐式学习的对象几何来检索并将外观特征与其对应区域进行空间对齐,确保外观的一致性。在公开基准上的大量实验验证了所提DGAD框架的有效性。
我们推出MedAgentGYM,这是首个公开可用的训练环境,旨在提升大型语言模型(LLM)代理在基于编码的医学推理能力。MedAgentGYM包含72,413个任务实例,涵盖129个类别,均源自真实世界的生物医学场景。这些任务被封装在可执行的编码环境中,每个环境均配备详细的任务描述、互动反馈机制、可验证的真实标注以及可扩展的训练轨迹生成功能。通过对超过30个LLM的广泛基准测试,我们发现基于商业API的模型与开源模型之间存在显著的性能差异。利用MedAgentGYM,Med-Copilot-7B通过监督微调(+36.44%)和持续强化学习(+42.47%)实现了显著的性能提升,成为与gpt-4o相媲美的经济实惠且保护隐私的替代方案。通过提供全面的基准测试和易于访问、可扩展的训练资源,MedAgentGYM在统一的执行环境中为开发基于LLM的编码助手提供了一个集成平台,以支持高级生物医学研究和实践。
现有的大多数视觉编码器将图像映射为固定长度的标记序列,忽视了不同图像包含信息量各异的事实。例如,一张视觉复杂的图像(如杂乱的房间)天然承载更多信息,因此应比简单图像(如空白的墙壁)分配更多标记。针对这一效率问题,我们提出了DOVE,一种动态视觉编码器,它生成可变数量的视觉标记(即连续表示向量)来重建每幅图像。实验结果表明,DOVE在保持高重建质量的同时,显著减少了平均标记数量。在多项线性探测及下游多模态任务中,相较于固定长度编码,DOVE在使用更少标记的情况下,超越了现有的基于自编码器的标记化方法,捕捉到了更具表现力的语义特征。我们进一步扩展了DOVE,引入查询条件标记化,通过引导模型聚焦于查询相关区域,实现了更高效且有针对性的语义提取。我们的代码和模型检查点可在https://dove-encoder.github.io/dove-encoder获取。
三维高斯溅射(3DGS)因其在新视角合成与三维建模中实现实时、照片级真实感渲染而备受瞩目。然而,现有方法在准确建模受瞬态物体影响的场景时面临挑战,导致渲染图像中出现伪影。我们发现,高斯密度化过程虽增强了场景细节捕捉,却无意中因生成额外高斯模型来模拟瞬态干扰而加剧了这些伪影。为此,我们提出了RobustSplat,一种基于两项关键设计的稳健解决方案。首先,我们引入了一种延迟高斯增长策略,优先优化静态场景结构,随后才允许高斯分裂/克隆,从而在早期优化中减少对瞬态物体的过拟合。其次,我们设计了一种尺度级联掩码引导方法,先利用低分辨率特征相似性监督进行可靠的初始瞬态掩码估计,得益于其更强的语义一致性和对噪声的鲁棒性,再逐步过渡到高分辨率监督,以实现更精确的掩码预测。在多个挑战性数据集上的广泛实验表明,我们的方法超越了现有技术,充分证明了其鲁棒性和有效性。项目页面请访问:https://fcyycf.github.io/RobustSplat/。
随着自主代理代表用户做出决策的时代到来,确保情境完整性(Contextual Integrity, CI)——即在执行特定任务时分享何种信息是恰当的——成为了该领域的核心问题。我们提出,CI要求一种推理形式,即代理需要对其所处的情境进行推理。为验证这一点,我们首先引导大型语言模型(LLMs)在决定披露哪些信息时,明确地对CI进行推理。随后,我们通过开发一个强化学习(RL)框架,进一步在模型中灌输实现CI所需的推理能力。利用一个仅包含约700个样本但涵盖多样化情境和信息披露规范的合成、自动生成的数据集,我们展示了该方法在保持任务性能的同时,显著减少了不恰当的信息披露,且这一改进适用于多种模型规模和系列。尤为重要的是,从这一合成数据集获得的改进能够迁移至如PrivacyLens等已建立的CI基准测试中,后者通过人工标注评估AI助手在行动和工具调用中的隐私泄露情况。
我们提出了校正点流(Rectified Point Flow),这是一种统一的参数化方法,将成对点云配准和多部件形状组装表述为单一的条件生成问题。给定未对齐的点云,我们的方法学习一个连续的点级速度场,该场将噪声点向目标位置传输,从而恢复部件姿态。与先前通过临时对称性处理回归部件姿态的工作不同,我们的方法无需对称性标签即可内在地学习组装对称性。结合专注于重叠点的自监督编码器,我们的方法在涵盖成对配准和形状组装的六个基准测试中实现了新的最先进性能。值得注意的是,我们的统一公式支持在多样化数据集上进行有效的联合训练,促进了共享几何先验的学习,从而提高了准确性。项目页面:https://rectified-pointflow.github.io/。
检索增强生成(RAG)系统普遍面临知识冲突问题,即检索到的外部知识与大型语言模型(LLMs)固有的参数化知识相矛盾。这严重影响了下游任务(如问答系统QA)的表现。现有方法通常通过并排比较两种知识源来缓解冲突,但这种方式可能因引入过多或冗长的上下文而使LLMs不堪重负,最终阻碍其识别和解决不一致性的能力。针对这一问题,我们提出了Micro-Act框架,该框架采用分层动作空间,能自动感知上下文复杂度,并自适应地将每个知识源分解为一系列细粒度比较。这些比较以可执行步骤的形式呈现,使得推理能够超越表层上下文。通过在五个基准数据集上的广泛实验,Micro-Act在所有五个数据集和三种冲突类型上均显著超越了现有最先进的基线模型,尤其是在时间和语义类型上,所有基线模型均表现不佳。更重要的是,Micro-Act在非冲突问题上同样展现出稳健性能,凸显了其在现实世界RAG应用中的实用价值。
合成高质量动态医学视频仍面临重大挑战,这源于需同时建模空间一致性与时间动态性。现有基于Transformer的方法存在关键局限,包括通道交互不足、自注意力机制带来的高计算复杂度,以及处理不同噪声水平时时间步嵌入提供的去噪指导过于粗糙。本研究中,我们提出了FEAT,一种全维度高效注意力Transformer,通过三项关键创新解决上述问题:(1) 采用序列化空间-时间-通道注意力机制的统一范式,以捕捉所有维度上的全局依赖关系;(2) 在各维度上设计线性复杂度的注意力机制,利用加权键值注意力与全局通道注意力;(3) 引入残差值指导模块,提供细粒度像素级指导,以适应不同噪声水平。我们在标准基准测试及下游任务上评估FEAT,结果表明,仅拥有Endora这一当前最优模型23%参数的FEAT-S,实现了相当甚至更优的性能。此外,FEAT-L在多个数据集上超越所有对比方法,展现了卓越的有效性与可扩展性。代码已发布于https://github.com/Yaziwel/FEAT。
精确的LiDAR-相机校正是实现自动驾驶与机器人系统中多模态感知融合的基础。传统校正方法需在受控环境下进行大量数据采集,且无法补偿车辆/机器人运动过程中的变换变化。本文首次提出了一种利用鸟瞰图(BEV)特征从原始数据中完成LiDAR相机校正的模型,命名为BEVCALIB。为此,我们分别提取相机BEV特征与LiDAR BEV特征,并将它们融合至共享的BEV特征空间。为充分利用BEV特征中的几何信息,我们引入了一种新颖的特征选择器,用于在变换解码器中筛选最关键的特征,从而减少内存消耗并实现高效训练。在KITTI、NuScenes及我们自建数据集上的广泛评估表明,BEVCALIB确立了新的技术标杆。在各种噪声条件下,BEVCALIB在KITTI数据集上以(47.08%,82.32%)的平均优势,在NuScenes数据集上以(78.17%,68.29%)的平均优势,分别在(平移,旋转)方面超越了文献中的最佳基线。在开源领域,它将最佳可复现基线的性能提升了一个数量级。我们的代码与演示结果可访问https://cisl.ucr.edu/BEVCalib获取。
基于示例图像对物体材质进行编辑是计算机视觉与图形学领域的一个活跃研究方向。我们提出了MARBLE方法,通过在CLIP空间中寻找材质嵌入并利用其控制预训练的文本到图像模型,实现材质混合与细粒度材质属性的重组。我们通过定位去噪UNet中负责材质归因的模块,改进了基于示例的材质编辑。给定两幅材质示例图像,我们在CLIP空间中寻找混合材质的方向。此外,借助浅层网络预测期望材质属性变化的方向,我们能够对粗糙度、金属感、透明度及发光等细粒度材质属性实现参数化控制。我们通过定性与定量分析,验证了所提方法的有效性。同时,展示了该方法在单次前向传播中执行多重编辑的能力及其在绘画领域的适用性。 项目页面:https://marblecontrol.github.io/
文本驱动视频编辑旨在根据自然语言指令修改视频内容。尽管近期无需训练的方法通过利用预训练扩散模型取得了进展,但它们通常依赖于基于反演的技术,将输入视频映射到潜在空间,这往往导致时间上的不一致性和结构保真度的下降。为解决这一问题,我们提出了FlowDirector,一种新颖的无反演视频编辑框架。该框架将编辑过程建模为数据空间中的直接演化,通过常微分方程(ODE)引导视频沿其固有的时空流形平滑过渡,从而保持时间连贯性和结构细节。为实现局部化和可控的编辑,我们引入了一种注意力引导的掩码机制,调节ODE速度场,在空间和时间上保护非目标区域。此外,为解决编辑不完整的问题并增强与编辑指令的语义对齐,我们提出了一种受无分类器引导启发的增强编辑策略,该策略利用多个候选流之间的差分信号,引导编辑轨迹朝向更强的语义对齐,同时不损害结构一致性。在多个基准测试上的广泛实验表明,FlowDirector在指令遵循、时间一致性和背景保留方面达到了最先进的性能,为无需反演的高效且连贯的视频编辑建立了新范式。
近期,慢思考语言模型(如OpenAI-o1和DeepSeek-R1)在模拟人类反思性认知方面取得了显著进展,展现出在复杂推理任务中的卓越能力。然而,将此类能力扩展至多模态大语言模型(MLLMs)仍面临挑战,主要在于升级底层推理LLMs时,重新训练视觉-语言对齐的高昂成本。一种直接的解决方案是将感知与推理解耦,即将视觉输入转换为语言表示(如字幕),随后传递给强大的纯文本推理器。然而,这种解耦引入了一个关键难题:视觉提取器必须生成既忠实于图像又足够信息丰富以支持准确下游推理的描述。为解决这一问题,我们提出了通过字幕奖励优化实现推理对齐的感知解耦(RACRO)——一种推理引导的强化学习策略,旨在使提取器的字幕生成行为与推理目标对齐。通过基于奖励的优化闭合感知-推理循环,RACRO显著增强了视觉基础,并提取出推理优化的表示。在多模态数学和科学基准测试上的实验表明,所提出的RACRO方法实现了平均性能的领先水平,同时展现出卓越的可扩展性和即插即用适应性,无需昂贵的多模态重新对齐即可适配更先进的推理LLMs。
大型语言模型(LLMs)的水印技术虽能显著影响输出质量,但其对真实性、安全性和实用性的影响仍亟待深入探究。本文系统分析了两种主流水印方法——Gumbel与KGW——在四种对齐LLMs上如何影响这些核心对齐属性。实验揭示出两种不同的性能退化模式:防护衰减,即实用性增强削弱了模型安全性;防护放大,即过度谨慎降低了模型实用性。这些模式源于水印引发的令牌分布变化,凸显了对齐目标间存在的根本性张力。 为缓解此类退化,我们提出了对齐重采样(Alignment Resampling, AR),一种在推理时利用外部奖励模型恢复对齐的采样方法。我们建立了随着样本量增加,预期奖励分数改进的理论下限,并通过实验证明,仅对2-4个水印生成样本进行采样,即可有效恢复甚至超越基线(无水印)对齐分数。针对标准Gumbel水印响应多样性有限的问题,我们的改进实现牺牲了严格的失真无痕性,同时保持了强健的检测能力,确保了与AR的兼容性。实验结果证实,AR成功地在两种水印方法中恢复了基线对齐,同时保持了强大的水印检测能力。 本研究揭示了水印强度与模型对齐之间的关键平衡,为实践中负责任地部署带水印LLMs提供了一个简单的推理时解决方案。
手-物交互(HOI)生成具有显著的应用潜力。然而,当前的三维HOI运动生成方法严重依赖预定义的三维物体模型和实验室捕获的运动数据,限制了其泛化能力。同时,HOI视频生成方法更注重像素级的视觉保真度,往往牺牲了物理合理性。认识到视觉外观与运动模式在现实世界中遵循相同的物理规律,我们提出了一种新颖的框架,该框架在同步扩散过程中结合视觉先验与动态约束,以同时生成HOI视频和运动。为了整合异质的语义、外观及运动特征,我们的方法实现了三模态自适应调制以对齐特征,并辅以三维全注意力机制来建模模态间与模态内的依赖关系。此外,我们引入了一种视觉感知的三维交互扩散模型,该模型直接从同步扩散输出中生成明确的三维交互序列,随后将其反馈以建立闭环反馈循环。这一架构消除了对预定义物体模型或显式姿态指导的依赖,同时显著增强了视频与运动的一致性。实验结果表明,我们的方法在生成高保真、动态合理的HOI序列方面优于现有技术,并在未见过的现实场景中展现出卓越的泛化能力。项目页面请访问https://github.com/Droliven/SViMo\_project。
精确预测视觉输入的三维占据网格对于自动驾驶至关重要,然而当前的判别式方法在处理噪声数据、不完整观测以及三维场景固有的复杂结构时面临挑战。本研究将三维占据预测重新定义为基于扩散模型的生成建模任务,通过学习底层数据分布并融入三维场景先验知识。这一方法提升了预测的一致性、噪声鲁棒性,并更好地处理了三维空间结构的复杂性。大量实验表明,基于扩散的生成模型超越了当前最先进的判别式方法,提供了更为真实和精确的占据预测,特别是在遮挡或低可见度区域。此外,改进的预测显著提升了下游规划任务的性能,凸显了该方法在实际自动驾驶应用中的实用优势。
自动化运动技能评估需要捕捉区分专家与新手表现的基本动作模式,然而当前的视频采样方法破坏了评估熟练度所必需的时间连续性。为此,我们提出了熟练度感知时间采样(PATS),这是一种新颖的采样策略,能够在连续的时间段内保留完整的基本动作,以支持多视角技能评估。PATS自适应地分割视频,确保每个分析部分都包含关键表现组件的完整执行,并在多个片段中重复此过程,以在保持时间连贯性的同时最大化信息覆盖。在EgoExo4D基准测试中,结合SkillFormer进行评估,PATS在所有视角配置下均超越了现有技术的准确率(提升幅度从+0.65%到+3.05%),并在挑战性领域取得了显著进步(攀岩+26.22%,音乐+2.39%,篮球+1.13%)。系统分析表明,PATS能够成功适应多样化的活动特征——从针对动态运动的高频采样到针对序列技能的精细分割——证明了其作为一种自适应时间采样方法在推进现实世界应用中的自动化技能评估方面的有效性。
CT图像的自动解读——尤其是在多平面和全身扫描中定位并描述异常发现——仍然是临床放射学领域的一项重大挑战。本研究旨在通过四项关键贡献应对这一挑战:(一)在分类体系方面,我们与资深放射科医生合作,提出了一套全面的层次化分类系统,涵盖所有身体区域的404种代表性异常发现;(二)在数据方面,我们贡献了一个包含超过14.5K张来自多平面及全身各区域的CT图像的数据集,并细致地为超过19K个异常提供了定位标注,每个异常均与详细描述相关联并纳入分类体系;(三)在模型开发上,我们提出了OminiAbnorm-CT,该模型能够基于文本查询自动在多平面和全身CT图像上定位并描述异常发现,同时支持通过视觉提示进行灵活交互;(四)在基准测试方面,我们基于真实临床场景建立了三项代表性评估任务。通过大量实验,我们证明OminiAbnorm-CT在所有任务和指标上均显著优于现有方法。
自监督模型学习到的语音表征在多大程度上具有语言特异性?现有研究表明,仅通过语音录音训练的端到端模型能够成功解码一系列语言特征。然而,预训练在特定语言上是否能够提升语言特有的语言学信息,这一点尚不明确。本文测试了自监督Wav2Vec2模型内部表征对荷兰语语音和词汇信息的编码能力。与在相似量的英语数据或更大量的多语言数据上进行预训练相比,仅在荷兰语上进行预训练能更好地表征荷兰语的语言特征。这种语言特异性优势通过训练有素的聚类或分类探针能够被有效检测到,并且在使用零样本度量时也能部分观察到。此外,语言学特征编码上的语言特异性优势与自动语音识别的下游性能表现相一致。