每日精选AI研究论文及翻译
归一化层在现代神经网络中无处不在,长期以来被视为不可或缺。本研究表明,通过一种极其简单的技术,无需归一化的Transformer模型也能达到同等甚至更优的性能。我们引入了动态Tanh(DyT),这是一种逐元素操作DyT(x) = tanh(alpha x),作为Transformer中归一化层的直接替代方案。DyT的灵感来源于观察到Transformer中的层归一化常产生类似Tanh的S形输入输出映射。通过融入DyT,无需归一化的Transformer模型在多数情况下无需超参数调优,即可匹配或超越其归一化版本的表现。我们在从识别到生成、监督学习到自监督学习、计算机视觉到语言模型等多种场景下验证了采用DyT的Transformer的有效性。这些发现挑战了现代神经网络中归一化层不可或缺的传统认知,为深入理解其在深度网络中的作用提供了新视角。
随着数百万个公开可用的神经网络模型的出现,搜索和分析大规模模型库变得愈发重要。要驾驭如此众多的模型,需要一份“地图”,但由于大多数模型缺乏完善的文档,绘制这样一份地图颇具挑战。为了挖掘模型库的潜在价值,我们绘制了一份初步的地图,代表了Hugging Face平台上已文档化的模型部分。这份地图提供了模型景观及其演变的惊艳可视化展示。我们展示了该地图的多种应用,包括预测模型属性(如准确率)以及分析计算机视觉模型的趋势。然而,鉴于当前地图仍不完整,我们提出了一种方法来绘制未文档化的区域。具体而言,我们基于现实世界中主导的模型训练实践,识别出高置信度的结构先验。利用这些先验知识,我们的方法能够精确映射地图中先前未文档化的区域。我们公开了我们的数据集、代码及交互式地图。
如稳定扩散和DALLE-3等文本到图像模型在多轮图像编辑任务中仍面临挑战。我们将此类任务分解为一种工具使用的代理工作流(路径),通过不同成本的AI工具处理一系列子任务。传统搜索算法需要昂贵的探索来寻找工具路径。尽管大型语言模型(LLMs)具备子任务规划的先前知识,但可能缺乏对工具能力和成本的准确估计,难以确定每个子任务应使用何种工具。我们能否结合LLMs和图搜索的优势,找到成本效益高的工具路径?我们提出了一种三阶段方法“CoSTA*”,利用LLMs创建子任务树,帮助为给定任务修剪AI工具图,然后在小型子图上进行A*搜索以找到工具路径。为了更好地平衡总成本与质量,CoSTA*结合了每个工具在每个子任务上的两项指标来指导A*搜索。每个子任务的输出随后由视觉语言模型(VLM)评估,若失败则触发工具在该子任务上成本和质量的更新。因此,A*搜索能够快速从失败中恢复,探索其他路径。此外,CoSTA*能够在子任务间自动切换模态,实现更优的成本质量权衡。我们构建了一个具有挑战性的多轮图像编辑新基准,在此基准上,CoSTA*在成本和质量上均优于最先进的图像编辑模型或代理,并能根据用户偏好进行多样化的权衡。
近期,大规模视觉语言模型(LVLMs)在具身任务规划方面展现出潜力,但仍面临依赖约束和效率等基础性挑战。现有方法要么仅优化动作选择,要么在推理过程中利用世界模型,却忽视了通过学习建模世界来增强规划能力的优势。我们提出了双重偏好优化(D^2PO),这是一种新的学习框架,通过偏好学习联合优化状态预测与动作选择,使LVLMs能够理解环境动态,从而提升规划效果。为了无需人工标注自动收集轨迹及逐步偏好数据,我们引入了一种树搜索机制,通过试错进行广泛探索。在VoTa-Bench上的大量实验表明,基于D^2PO的方法应用于Qwen2-VL(7B)、LLaVA-1.6(7B)及LLaMA-3.2(11B)时,显著优于现有方法及GPT-4o,以更高效的执行路径实现了更高的任务成功率。
当前的图像生成与编辑方法主要将文本提示作为直接输入进行处理,缺乏对视觉构图和显式操作的推理。我们提出了生成思维链(Generation Chain-of-Thought, GoT),这是一种新颖的范式,通过在输出图像前进行显式的语言推理过程来实现生成与编辑。该方法将传统的文本到图像生成与编辑转变为一种推理引导的框架,能够分析语义关系与空间布局。我们定义了GoT的公式化表达,并构建了包含超过900万样本的大规模GoT数据集,这些样本带有详细捕捉语义-空间关系的推理链。为了充分利用GoT的优势,我们实现了一个统一框架,该框架集成了Qwen2.5-VL用于推理链生成,并结合了一个通过我们新提出的语义-空间引导模块增强的端到端扩散模型。实验表明,我们的GoT框架在生成与编辑任务上均表现出色,相较于基线方法有显著提升。此外,我们的方法支持交互式视觉生成,允许用户显式修改推理步骤以实现精确的图像调整。GoT开创了推理驱动的视觉生成与编辑新方向,生成的图像更符合人类意图。为了促进未来研究,我们在https://github.com/rongyaofang/GoT公开了数据集、代码及预训练模型。
本文介绍了SANA-Sprint,一种用于超快速文本到图像(T2I)生成的高效扩散模型。SANA-Sprint基于预训练的基础模型,并通过混合蒸馏技术进行增强,将推理步骤从20步大幅减少至1-4步。我们提出了三项关键创新:(1)我们提出了一种无需训练的方法,将预训练的流匹配模型转化为连续时间一致性蒸馏(sCM),避免了从头训练的高昂成本,实现了高效的训练。我们的混合蒸馏策略结合了sCM与潜在对抗蒸馏(LADD):sCM确保与教师模型的对齐,而LADD则提升了单步生成的保真度。(2)SANA-Sprint是一个统一的步数自适应模型,能够在1-4步内实现高质量生成,消除了针对特定步数的训练,提高了效率。(3)我们将ControlNet与SANA-Sprint集成,实现了实时交互式图像生成,为用户交互提供即时视觉反馈。SANA-Sprint在速度与质量的权衡中确立了新的帕累托前沿,仅用1步便达到了7.59 FID和0.74 GenEval的顶尖性能,超越了FLUX-schnell(7.94 FID / 0.71 GenEval),同时速度提升了10倍(H100上0.1秒对比1.1秒)。在H100上,1024 x 1024图像的T2I延迟为0.1秒,ControlNet延迟为0.25秒,在RTX 4090上T2I延迟为0.31秒,展示了其在AI驱动的消费应用(AIPC)中的卓越效率和潜力。代码与预训练模型将开源发布。
我们推出了VisualPRM,这是一款拥有80亿参数的高级多模态过程奖励模型(PRM),它通过Best-of-N(BoN)评估策略显著提升了现有多模态大语言模型(MLLMs)在不同模型规模和系列中的推理能力。具体而言,我们的模型提升了三种类型MLLMs及四种不同模型规模的推理表现。即便应用于性能卓越的InternVL2.5-78B模型,它也在七个多模态推理基准测试中实现了5.9分的提升。实验结果表明,在BoN评估中,我们的模型相较于结果奖励模型和自一致性方法展现出更优的性能。为了促进多模态PRMs的训练,我们利用自动化数据管道构建了包含40万条数据的多模态过程监督数据集VisualPRM400K。针对多模态PRMs的评估,我们提出了VisualProcessBench,这是一个带有人工标注步骤正确性标签的基准测试,旨在衡量PRMs在多模态推理任务中检测错误步骤的能力。我们期望这项工作能激发更多未来研究,并为MLLMs的发展贡献力量。我们的模型、数据集及基准测试已发布于https://internvl.github.io/blog/2025-03-13-VisualPRM/。
文本到图像扩散模型在根据文本提示生成高质量内容方面取得了显著成功。然而,这些模型对公开可用数据的依赖以及微调数据共享的日益流行,使其特别容易受到数据投毒攻击的影响。在本研究中,我们提出了一种名为“无声品牌攻击”的新型数据投毒方法,该方法能够操控文本到图像扩散模型,使其在没有任何文本触发的情况下生成包含特定品牌标志或符号的图像。我们发现,当训练数据中反复出现某些视觉模式时,模型会自然地在其输出中重现这些模式,即使提示中并未提及。基于此,我们开发了一种自动化的数据投毒算法,能够不引人注目地将标志注入原始图像中,确保它们自然融合且不易被察觉。在投毒数据集上训练的模型能够生成包含标志的图像,而不会降低图像质量或文本对齐度。我们通过在大规模高质量图像数据集和风格个性化数据集上的两个实际场景中实验验证了无声品牌攻击的有效性,即使在没有特定文本触发的情况下也实现了高成功率。人类评估和包括标志检测在内的定量指标表明,我们的方法能够隐秘地嵌入标志。
实现文本到图像(T2I)生成模型在采样速度与质量上的双重提升,是一个极具前景的研究方向。以往的研究往往侧重于在牺牲采样效率的前提下提升合成图像的视觉质量,或是大幅加速采样过程却未能增强基础模型的生成能力。此外,几乎所有推理方法都未能同时在扩散模型(DMs)和视觉自回归模型(ARMs)上保证稳定的性能表现。本文提出了一种新颖的即插即用推理范式——CoRe^2,它包含三个子过程:收集(Collect)、反映(Reflect)和精炼(Refine)。CoRe^2首先收集无分类器引导(CFG)轨迹,随后利用收集的数据训练一个弱模型,该模型反映易于学习的内容,同时将推理过程中的函数评估次数减半。接着,CoRe^2采用弱到强引导策略来精炼条件输出,从而提升模型生成高频和真实内容的能力,这些内容对于基础模型而言难以捕捉。据我们所知,CoRe^2是首个在包括SDXL、SD3.5和FLUX在内的多种DMs,以及如LlamaGen的ARMs上均展现出高效性与有效性的方法。它在HPD v2、Pick-of-Pic、Drawbench、GenEval和T2I-Compbench等基准测试中均表现出显著的性能提升。此外,CoRe^2能够无缝集成最先进的Z-Sampling技术,在PickScore和AES上分别超越其0.3和0.16分,同时在使用SD3.5时节省了5.64秒的时间。代码已发布于https://github.com/xie-lab-ml/CoRe/tree/main。
学习4D语言场以实现动态场景中时间敏感、开放式的语言查询,对于众多现实世界应用至关重要。尽管LangSplat成功地将CLIP特征嵌入到3D高斯表示中,在静态3D场景中实现了精确与高效,但它无法处理动态的4D场,因为CLIP专为静态图像-文本任务设计,难以捕捉视频中的时间动态。现实环境本质上是动态的,物体语义随时间演变。构建精确的4D语言场需要获取像素对齐、对象级别的视频特征,而当前视觉模型在这方面面临挑战。为解决这些问题,我们提出了4D LangSplat,它学习4D语言场,以高效处理动态场景中时间无关或时间敏感的开放词汇查询。4D LangSplat绕过了从视觉特征学习语言场的过程,而是直接通过多模态大语言模型(MLLMs)从对象级别视频描述生成的文本中学习。具体而言,我们提出了一种多模态对象级别视频提示方法,结合视觉与文本提示,引导MLLMs为视频中的对象生成详细、时间一致、高质量的描述。这些描述通过大语言模型编码为高质量的句子嵌入,随后作为像素对齐、对象特定的特征监督,通过共享嵌入空间促进开放词汇文本查询。认识到4D场景中的对象状态间存在平滑过渡,我们进一步提出了状态可变形网络,以有效建模这些随时间连续变化的状态。我们在多个基准测试中的结果表明,4D LangSplat在时间敏感与时间无关的开放词汇查询上均取得了精确且高效的结果。
本文介绍了我们在Light-R1系列上的研究工作,并公开了模型、数据和代码。我们首先专注于从头训练长链思维(COT)模型,特别是从最初不具备长链思维能力的模型开始。采用由两阶段监督微调(SFT)和半在线策略直接偏好优化(DPO)组成的课程训练方案,我们从Qwen2.5-32B-Instruct训练出Light-R1-32B模型,在数学性能上超越了DeepSeek-R1-Distill-Qwen-32B。尽管仅针对数学数据进行训练,Light-R1-32B在其他领域也展现出强大的泛化能力。在后续工作中,我们强调了为第二阶段SFT构建的3k数据集在提升其他模型性能上的显著优势。通过使用该数据集微调DeepSeek-R1-Distilled模型,我们在7B和14B规模上获得了新的SOTA模型,而32B模型Light-R1-32B-DS的表现与QwQ-32B和DeepSeek-R1相当。 此外,我们通过应用强化学习,特别是广义相对策略优化(GRPO),于长链思维模型上,进一步提升了推理性能。我们成功地对最终模型Light-R1-14B-DS进行了强化学习训练,在14B参数规模的数学模型中达到了SOTA水平。凭借AIME24和AIME25分别74.0和60.2的得分,Light-R1-14B-DS甚至超越了许多32B模型及DeepSeek-R1-Distill-Llama-70B。其强化学习训练还展现出预期的良好行为,即响应长度与奖励分数同步增长。 Light-R1系列工作验证了从头训练长链思维模型的可行性,展示了SFT数据处理的精妙之处,并发布了通过强化学习获得的SOTA模型。
基于扩散的生成模型已在面向对象的图像编辑领域引发革命,然而其在真实物体移除与插入中的应用仍受限于物理效应复杂交互及配对训练数据不足等挑战。本研究中,我们提出了OmniPaint,一个将物体移除与插入重新定义为相互依存过程而非孤立任务的统一框架。通过利用预训练的扩散先验,以及包含初始配对样本优化和后续大规模非配对CycleFlow精炼的渐进式训练流程,OmniPaint实现了精确的前景消除与无缝对象插入,同时忠实保留了场景几何与内在属性。此外,我们创新的CFD指标为上下文一致性与对象幻觉提供了无需参考的稳健评估,为高保真图像编辑设立了新基准。项目页面:https://yeates.github.io/OmniPaint-Page/
视觉语言模型在许多以感知为核心的任务上取得了显著进展,然而,在推理导向的任务上,其进展似乎因缺乏高质量且多样化的训练数据而受限。本研究中,我们致力于解决多模态推理数据集稀缺的问题。我们提出了VisualWebInstruct——一种创新方法,利用搜索引擎构建一个跨数学、物理、金融、化学等多个学科领域的高质量、多样化数据集。从精心挑选的30,000张种子图像出发,我们运用Google图片搜索识别包含相似图像的网站,并从超过70万个独特URL来源中收集并处理HTML内容。通过内容提取、过滤与合成的流程,我们构建了一个包含约90万问答对的数据集,其中40%为视觉问答对,其余为文本问答对。基于VisualWebInstruct微调的模型展现出显著的性能提升:(1) 从Llava-OV-mid开始训练,在各项基准测试中实现了10-20%的绝对分数提升;(2) 从MAmmoTH-VL开始训练,获得了5%的绝对提升。我们的最佳模型MAmmoTH-VL2在10B参数级别内,于MMMU-Pro-std(40.7%)、MathVerse(42.6%)和DynaMath(55.7%)上展现了业界领先的性能。这些卓越成果凸显了我们数据集在增强视觉语言模型处理复杂多模态任务推理能力方面的有效性。
近期,大型推理模型(LRMs)的进展,尤其是那些利用思维链推理(CoT)的模型,为机器翻译(MT)开辟了全新的可能性。本立场文件主张,LRMs通过将翻译重构为一项需要上下文、文化和语言理解与推理的动态任务,从根本上改变了传统的神经机器翻译以及基于大语言模型(LLMs)的翻译范式。我们识别了三大基础性转变:1)上下文连贯性,LRMs通过显式推理跨越句子及复杂上下文,甚至在缺乏上下文的情况下,解决歧义并保持语篇结构;2)文化意图性,使模型能够通过推断说话者意图、受众期待及社会语言规范来调整输出;3)自我反思,LRMs在推理过程中进行自我反思,以纠正翻译中的潜在错误,特别是在极端嘈杂的情况下,展现出比简单的X->Y映射翻译更好的鲁棒性。我们通过展示实证案例,探讨了翻译中的多种场景,包括风格化翻译、文档级翻译和多模态翻译,证明了LRMs在翻译中的优越性。同时,我们也指出了LRMs在MT中的一些有趣现象,如自动枢纽翻译,以及面临的重大挑战,如翻译中的过度本地化和推理效率问题。总之,我们认为LRMs重新定义了翻译系统,使其不仅仅是文本转换器,而是能够推理文本之外意义的多语言认知代理。这一范式转变提醒我们,在更广泛的背景下,利用LRMs思考翻译问题——我们能在其上实现什么。
近期,长上下文大语言模型(LLMs)的进展主要集中在处理扩展输入上下文方面,从而在长上下文理解上取得了显著进步。然而,生成长篇输出这一同样关键的领域却相对较少受到关注。本文主张在自然语言处理(NLP)研究中实现范式转变,以应对长输出生成的挑战。诸如小说创作、长期规划和复杂推理等任务,要求模型不仅理解广泛上下文,还需生成连贯、内容丰富且逻辑一致的长篇文本。这些需求凸显了当前LLM能力中的一个关键空白。我们强调这一尚未充分探索的领域的重要性,并呼吁集中力量开发专门用于生成高质量长篇输出的基础LLMs,这在实际应用中具有巨大的潜力。
像素定位任务,包括指称表达分割(RES),因其在视觉与语言模态间架设桥梁的巨大潜力而备受关注。然而,该领域的发展目前受限于现有数据集的固有缺陷,如对象类别有限、文本多样性不足以及高质量标注稀缺。为缓解这些限制,我们推出了GroundingSuite,它包含:(1)一个利用多视觉语言模型(VLM)代理的自动化数据标注框架;(2)一个大规模训练数据集,涵盖956万条多样化的指称表达及其对应的分割结果;(3)一个精心策划的评估基准,包含3,800张图像。GroundingSuite训练数据集显著提升了模型性能,使基于其训练的模型达到了最先进水平,具体表现为在gRefCOCO上取得68.9的cIoU,在RefCOCOm上获得55.3的gIoU。此外,GroundingSuite标注框架展现出相较于当前领先数据标注方法(即GLaMM)更高的效率,速度提升了4.5倍。
过去一年中,视频生成模型取得了显著进展。AI视频质量持续提升,但代价是模型规模增大、数据量增加以及对训练算力的更高需求。在本报告中,我们推出了Open-Sora 2.0,一款仅耗资20万美元训练的商业级视频生成模型。通过该模型,我们证明了训练顶级视频生成模型的成本是高度可控的。我们详细介绍了促成这一效率突破的所有技术,包括数据筛选、模型架构、训练策略和系统优化。根据人类评估结果和VBench评分,Open-Sora 2.0与全球领先的视频生成模型,如开源版HunyuanVideo和闭源版Runway Gen-3 Alpha,表现相当。通过将Open-Sora 2.0完全开源,我们旨在普及先进视频生成技术的获取,促进内容创作领域更广泛的创新与创造力。所有资源均公开于:https://github.com/hpcaitech/Open-Sora。
本研究对扩散变换器(DiTs)在文本到图像生成中的应用进行了实证研究,重点关注架构选择、文本条件策略及训练协议。我们评估了一系列基于DiT的架构——包括PixArt风格和MMDiT变体——并将其与直接处理拼接文本和噪声输入的标准DiT变体进行了比较。出乎意料的是,我们的研究结果显示,标准DiT的性能与这些专门模型相当,同时展现出更优的参数效率,尤其是在规模扩展时。通过采用层级参数共享策略,我们进一步将模型大小相较于MMDiT架构减少了66%,而对性能影响微乎其微。基于对文本编码器和变分自编码器(VAEs)等关键组件的深入分析,我们推出了DiT-Air和DiT-Air-Lite。经过监督和奖励微调,DiT-Air在GenEval和T2I CompBench上实现了最先进的性能,而DiT-Air-Lite尽管体积紧凑,仍保持高度竞争力,超越了大多数现有模型。
大型语言模型在复杂文本任务中展现出了卓越的推理能力。然而,多模态推理——即需要整合视觉与文本信息——仍是一项重大挑战。现有的视觉-语言模型往往难以有效分析和推理视觉内容,导致在复杂推理任务上表现欠佳。此外,缺乏全面的基准测试也阻碍了对多模态推理能力的准确评估。本文中,我们提出了R1-Onevision,一个旨在弥合视觉感知与深度推理之间鸿沟的多模态推理模型。为此,我们设计了一种跨模态推理管道,将图像转化为形式化的文本表示,从而支持精确的语言基础推理。利用这一管道,我们构建了R1-Onevision数据集,该数据集提供了跨多个领域的详细、逐步的多模态推理标注。我们进一步通过监督微调和强化学习开发了R1-Onevision模型,以培养高级推理能力和强大的泛化能力。为了全面评估不同层次的多模态推理表现,我们引入了R1-Onevision-Bench,这是一个与人类教育阶段对齐的基准测试,涵盖了从初中到大学及以上的考试内容。实验结果显示,R1-Onevision在多个具有挑战性的多模态推理基准测试中达到了最先进的性能,超越了GPT-4o和Qwen2.5-VL等模型。
蒸馏扩散模型面临一个关键局限:与基础模型相比,样本多样性显著降低。本研究中,我们发现尽管存在这种多样性损失,蒸馏模型仍保留了基础模型的核心概念表征。我们展示了控制蒸馏——在基础模型上训练的控制机制(如概念滑块和LoRAs)能够无缝迁移至蒸馏模型,反之亦然,从而无需重新训练即可有效蒸馏控制能力。这种表征结构的保留促使我们深入探究蒸馏过程中多样性崩溃的机制。为理解蒸馏如何影响多样性,我们引入了扩散目标(DT)可视化,这一分析和调试工具揭示了模型在中间步骤如何预测最终输出。通过DT可视化,我们识别了生成过程中的伪影与不一致性,并证明初始扩散时间步长对输出多样性具有决定性影响,而后续步骤主要精修细节。基于这些洞察,我们提出了多样性蒸馏——一种混合推理策略,仅在关键的第一时间步长策略性地使用基础模型,随后切换至高效的蒸馏模型。实验表明,这一简单调整不仅恢复了从基础模型到蒸馏模型的多样性能力,甚至超越了前者,同时几乎保持了蒸馏推理的计算效率,且无需额外训练或模型修改。我们的代码与数据公开于https://distillation.baulab.info。
近期视频生成技术的进步已能通过可扩展的扩散变换器制作出逼真、长达一分钟的单镜头视频。然而,现实世界的叙事视频需要多镜头场景,且各镜头间需保持视觉与动态的一致性。本研究中,我们提出了长上下文调优(Long Context Tuning, LCT),一种训练范式,它扩展了预训练单镜头视频扩散模型的上下文窗口,直接从数据中学习场景级别的一致性。我们的方法将全注意力机制从单个镜头扩展至涵盖场景内的所有镜头,结合交错的三维位置嵌入与异步噪声策略,实现了无需额外参数的联合与自回归镜头生成。经过LCT后具备双向注意力的模型,可进一步通过上下文因果注意力进行微调,促进利用高效KV缓存的自回归生成。实验表明,经过LCT的单镜头模型能够生成连贯的多镜头场景,并展现出包括组合生成与交互式镜头延伸在内的新兴能力,为更实用的视觉内容创作铺平了道路。更多详情请访问https://guoyww.github.io/projects/long-context-video/。
随着机器学习模型规模不断扩大,数据并行方法中固有的频繁同步需求导致了显著的性能下降,这对进一步扩展构成了关键挑战。近期研究提出了一种名为DiLoCo的方法,它在不牺牲模型质量的前提下放松了同步需求。然而,这些研究并未深入分析DiLoCo的行为如何随模型规模变化。在本研究中,我们探讨了在固定计算预算下训练大型语言模型(LLMs)时,DiLoCo的扩展规律。我们重点分析了算法因素,包括模型副本数量、超参数及令牌预算,如何以可预测的方式影响训练过程,这些影响可通过扩展定律准确预测。我们发现,DiLoCo在模型规模上的扩展既具可预测性又稳健。经过良好调优后,DiLoCo在模型规模上的扩展优于数据并行训练,甚至在小型模型上也能超越数据并行训练。我们的研究结果揭示了DiLoCo相较于先前记录更为广泛的优势,包括增大的最优批量大小、随规模提升的下游泛化能力,以及在固定令牌预算下评估损失的改善。
随着深度生成模型,尤其是扩散模型的出现,视频生成领域取得了显著进展。尽管现有方法在从文本提示或单张图像生成高质量视频方面表现出色,但个性化多主体视频生成仍是一个尚未充分探索的挑战。这一任务涉及合成包含多个独立主体的视频,每个主体由不同的参考图像定义,同时确保时间和空间上的一致性。当前方法主要依赖于将主体图像映射到文本提示中的关键词,这引入了模糊性,并限制了其有效建模主体间关系的能力。本文中,我们提出了CINEMA,一种利用多模态大语言模型(MLLM)实现连贯多主体视频生成的新框架。我们的方法消除了主体图像与文本实体间显式对应的需求,从而减少了模糊性和标注工作量。通过利用MLLM解析主体间关系,我们的方法促进了可扩展性,使得能够使用大规模多样化数据集进行训练。此外,我们的框架能够适应不同数量的主体条件,为个性化内容创作提供了更大的灵活性。通过广泛的评估,我们证明了该方法在主体一致性和整体视频连贯性方面显著提升,为故事叙述、互动媒体和个性化视频生成等高级应用铺平了道路。
本文探讨了在零样本设置下使用文本到图像模型为分类学概念生成图像的可行性。尽管基于文本的分类学扩展方法已相当成熟,但视觉维度的潜力仍未被充分挖掘。为此,我们提出了一个全面的分类学图像生成基准,旨在评估模型理解分类学概念并生成相关、高质量图像的能力。该基准涵盖了常识性及随机采样的WordNet概念,以及大语言模型生成的预测结果。我们采用9种新颖的与分类学相关的文本到图像指标及人类反馈,对12个模型进行了评估。此外,我们率先将GPT-4反馈用于图像生成的成对评估中。实验结果显示,模型在此任务中的排名与标准文本到图像任务存在显著差异,Playground-v2和FLUX在各项指标及子集上持续表现优异,而基于检索的方法则表现不佳。这些发现凸显了自动化结构化数据资源整理的巨大潜力。
视觉语言模型(VLMs)在多种下游任务中展现出显著潜力,包括图像/视频生成、视觉问答、多模态聊天机器人以及视频理解。然而,这些模型在处理基本图像变换时往往表现欠佳。本文深入研究了VLMs在图像层面的理解能力,特别是OpenAI的CLIP和Google的SigLIP模型。我们的发现表明,这些模型对多种图像层面的增强处理缺乏理解。为支持此项研究,我们创建了Flickr8k数据集的增强版本,为每张图像配以所应用变换的详细描述。我们进一步探讨了这种缺陷如何影响下游任务,尤其是在图像编辑领域,并评估了当前最先进的Image2Image模型在简单变换任务上的表现。
风格迁移涉及将参考图像的风格转移到目标图像的内容上。基于LoRA(低秩适应)方法的最新进展在有效捕捉单幅图像风格方面展现出潜力。然而,这些方法仍面临内容不一致、风格错位和内容泄露等重大挑战。本文全面分析了在风格迁移背景下,标准扩散参数化(即学习预测噪声)的局限性。为解决这些问题,我们提出了ConsisLoRA,一种基于LoRA的方法,通过优化LoRA权重以预测原始图像而非噪声,从而增强内容和风格的一致性。我们还提出了一种两步训练策略,将内容与参考图像风格的学习解耦。为了有效捕捉内容图像的全局结构和局部细节,我们引入了逐步损失过渡策略。此外,我们提出了一种推理引导方法,可在推理过程中实现对内容和风格强度的连续控制。通过定性和定量评估,我们的方法在内容和风格一致性方面显示出显著提升,同时有效减少了内容泄露。
我们提出了ARPG,一种新颖的视觉自回归模型,它支持随机并行生成,有效解决了传统光栅顺序方法在推理效率和零样本泛化能力上的固有局限。这些局限源于其顺序、预定义的令牌生成方式。我们的核心洞见在于,有效的随机顺序建模需要明确的指导来确定下一个预测令牌的位置。为此,我们设计了一种创新的引导解码框架,将位置引导与内容表示解耦,分别编码为查询和键值对。通过直接将这种引导融入因果注意力机制,我们的方法实现了完全随机顺序的训练与生成,无需双向注意力。因此,ARPG能够轻松泛化至图像修复、扩展及分辨率提升等零样本任务。此外,它通过共享KV缓存并行处理多个查询,支持并行推理。在ImageNet-1K 256基准测试中,我们的方法仅用64个采样步骤便达到了1.94的FID分数,相比近期同规模的自回归模型,吞吐量提升了20倍以上,同时内存消耗减少了超过75%。
先进的生成模型在图像合成方面表现出色,但通常依赖于基于文本的条件输入。然而,视觉设计师的工作往往超越语言范畴,他们直接从现有的视觉元素中汲取灵感。在许多情况下,这些元素仅代表潜在概念的片段——如独特结构的翅膀或特定发型——为艺术家提供灵感,探索如何将它们创造性地融合成一个连贯的整体。认识到这一需求,我们引入了一种生成框架,该框架能够无缝整合用户提供的一组部分视觉组件,同时采样生成完整概念所需的缺失部分,从而产生合理且完整的设计。我们的方法建立在IP-Adapter+提取的强大且未被充分探索的表征空间之上,在此基础之上,我们训练了IP-Prior,这是一个轻量级的流匹配模型,它基于领域特定的先验知识合成连贯的构图,支持多样化和上下文感知的生成。此外,我们提出了一种基于LoRA的微调策略,显著提升了IP-Adapter+在特定任务中的提示遵循能力,解决了其在重建质量与提示遵循之间常见的权衡问题。
本文提出了一种通用的零样本目标导向导航框架。现有零样本方法针对特定任务构建基于大语言模型(LLM)的推理框架,其整体流程差异较大且难以泛化至不同类型的目标。为实现通用零样本导航,我们提出了一种统一的图表示方法,将包括物体类别、实例图像和文本描述在内的不同目标统一起来。同时,我们将智能体的观测转换为在线维护的场景图。通过这种一致的场景与目标表示,相较于纯文本,我们保留了大部分结构信息,并能够利用LLM进行显式的基于图的推理。具体而言,我们在每个时间步进行场景图与目标图之间的图匹配,并根据不同的匹配状态提出不同的策略来生成长期探索目标。当零匹配时,智能体首先迭代搜索目标子图;在部分匹配时,智能体利用坐标投影和锚点对对齐来推断目标位置;最后,在完全匹配时应用场景图校正和目标验证。我们还引入了一种黑名单机制,以实现各阶段间的稳健切换。在多个基准上的大量实验表明,我们的UniGoal在三个研究的导航任务中,使用单一模型即实现了最先进的零样本性能,甚至超越了特定任务的零样本方法和监督式通用方法。
自动语音识别(ASR)模型在字幕生成、语音翻译及实时转录等应用中日益凸显其重要性。本文研究了Whisper及其两种变体模型:一种针对实时语音流优化,另一种则专为离线转录设计。值得注意的是,这些模型被发现会产生幻觉内容,降低了转录的可靠性。此外,更大规模的模型变体表现出更高的延迟,对资源受限设备的部署提出了挑战。本研究分析了三种Whisper模型之间的异同,定性探讨了它们各自的能力特点。随后,量化了模型量化对延迟的影响,并评估了其在边缘设备部署中的可行性。利用开源LibriSpeech数据集,本文评估了whispercpp在三种量化方法(INT4、INT5、INT8)下的词错误率(WER)及延迟分析。结果显示,量化使延迟减少了19%,模型大小缩减了45%,同时保持了转录的准确性。这些发现为不同Whisper模型的最佳使用场景及边缘设备部署的可能性提供了洞见。所有代码、数据集及实现细节均公开于GitHub仓库:https://github.com/allisonandreyev/WhisperQuantization.git。
视觉Transformer模型展现出强大的能力,但其内部机制对人类而言仍不透明,这为实际应用带来了挑战与风险。尽管先前的研究已尝试通过输入归因和神经元角色分析来揭示这些模型的神秘面纱,但在考虑层级信息及跨层信息流动的整体路径方面仍存在显著空白。本文中,我们探究了视觉Transformer中关键神经元路径的重要性,即从模型输入到输出、对模型推理影响最为显著的神经元序列。我们首先提出了一种联合影响力度量方法,用于评估一组神经元对模型结果的贡献。进而,我们提供了一种逐层递进的神经元定位策略,旨在高效地筛选出每一层中最具影响力的神经元,从而在目标模型内发现从输入到输出的关键神经元路径。实验证明,相较于现有基线方法,我们的方法在寻找信息流动的最具影响力神经元路径方面表现更优。此外,这些神经元路径揭示了视觉Transformer在处理同一图像类别内的视觉信息时,展现出特定的内部工作机制。我们进一步分析了这些神经元在图像分类任务中的关键作用,表明所发现的神经元路径已保留了模型在下游任务上的能力,这或许也为模型剪枝等实际应用提供了启示。项目网站及实现代码可在https://foundation-model-research.github.io/NeuronPath/获取。
大型语言模型(LLMs)正迅速融入儿童的生活——通过家长的引入、学校教育和同龄人网络——然而,当前的AI伦理与安全研究并未充分针对未成年人特有的内容相关风险。本文通过一个基于LLM的聊天机器人在中学环境中的实际案例研究,揭示了学生如何使用及有时滥用该系统,从而凸显了这些研究空白。基于这些发现,我们提出了一套针对未成年人的内容风险新分类,并推出了MinorBench,这是一个开源基准,旨在评估LLMs在拒绝儿童提出的不安全或不适当查询方面的能力。我们在不同系统提示下评估了六种主流LLMs,结果显示它们在儿童安全合规性上存在显著差异。我们的研究结果为构建更强大、以儿童为中心的安全机制提供了实践指导,并强调了定制AI系统以保护年轻用户的紧迫性。
物体幻觉(Object Hallucination, OH)已被公认为大规模视觉语言模型(Large Vision-Language Models, LVLMs)面临的主要可信挑战之一。近期大型语言模型(Large Language Models, LLMs)的进展表明,内部状态(如隐藏状态)编码了生成响应的“整体真实性”。然而,关于LVLMs内部状态如何运作,以及它们是否能够作为“逐令牌”幻觉指示器,这一关键问题仍待深入探索,这对于缓解OH至关重要。本文中,我们首先对LVLM内部状态与OH问题之间的关系进行了深入探究,发现:(1)LVLM内部状态是幻觉行为的高特异性逐令牌指示器。此外,(2)不同的LVLMs在共同的潜在子空间中编码了幻觉的普遍模式,表明存在多种LVLMs共享的“通用真实方向”。基于这些发现,我们提出了真实导向预干预(Truthful-Guided Pre-Intervention, TruthPrInt),该方法首先学习LVLM解码的真实方向,然后在LVLM解码过程中应用真实导向的推理时干预。为进一步提升跨LVLM和跨数据幻觉检测的迁移能力,我们提出了ComnHallu,通过构建和对齐幻觉潜在子空间来实现这一目标。我们在广泛的实验环境中评估了TruthPrInt,包括域内和域外场景,覆盖了流行的LVLMs和OH基准测试。实验结果表明,TruthPrInt显著优于现有最先进的方法。代码将在https://github.com/jinhaoduan/TruthPrInt 公开。
在开源软件开发中,缺陷报告讨论中的毒性问题对协作动态构成了重大挑战。缺陷报告对于识别和解决缺陷至关重要,然而其固有的问题导向性质及情感化背景使其容易引发有害互动。本研究通过对GitHub上203个缺陷讨论线程(其中包括81个有毒线程)的定性分析,探讨了缺陷报告中的毒性现象。研究发现,毒性常源于对缺陷严重性和优先级认知的偏差、对工具未解决的挫败感以及专业沟通的缺失。这些有害互动不仅阻碍了富有成效的讨论,还降低了诸如将问题与拉取请求关联等可操作结果的可能性。我们的初步发现为通过减少毒性来改进缺陷解决提供了切实可行的建议。
小批量最优传输耦合在无条件流匹配中使路径变得平直。这导致推理计算需求降低,因为在测试时数值求解常微分方程所需的积分步骤更少,且可采用复杂度较低的数值求解器。然而,在条件设置下,小批量最优传输表现欠佳。这是因为默认的最优传输映射忽略了条件,导致训练过程中条件性偏斜的先验分布。相反,在测试时,我们无法获取偏斜的先验,而是从完整、无偏的先验分布中采样。这种训练与测试之间的差距导致了性能不佳。为弥合这一差距,我们提出了条件最优传输C^2OT,它在计算最优传输分配时,在成本矩阵中加入了条件权重项。实验表明,这一简单修正适用于8高斯到月牙、CIFAR-10、ImageNet-32x32及ImageNet-256x256中的离散与连续条件。相较于现有基线,我们的方法在不同函数评估预算下整体表现更优。代码已发布于https://hkchengrex.github.io/C2OT。
尽管开源大型视觉语言模型(LVLMs)展现出令人瞩目的性能,基于迁移的目标攻击在面对黑箱商业LVLMs时往往失效。分析失败的对抗扰动发现,这些学习到的扰动通常源自均匀分布,缺乏明确的语义细节,导致模型产生非预期的响应。这种关键语义信息的缺失,使得商业LVLMs要么完全忽略扰动,要么误解其嵌入的语义,从而导致攻击失败。为解决这些问题,我们注意到识别核心语义对象是采用多种数据集和方法训练的模型的关键目标。这一洞见促使我们采取一种方法,通过在局部区域编码明确的语义细节来提升语义清晰度,从而确保互操作性并捕捉更细粒度的特征,同时将修改集中在语义丰富的区域而非均匀应用。为此,我们提出了一种简单却极为有效的解决方案:在每次优化步骤中,对抗图像以可控的宽高比和尺度随机裁剪,调整大小后与目标图像在嵌入空间中对齐。实验结果验证了我们的假设。我们利用聚焦于关键区域的局部聚合扰动制作的对抗样本,对包括GPT-4.5、GPT-4o、Gemini-2.0-flash、Claude-3.5-sonnet、Claude-3.7-sonnet乃至推理模型如o1、Claude-3.7-thinking和Gemini-2.0-flash-thinking在内的商业LVLMs展现出了惊人的可迁移性。我们的方法在GPT-4.5、4o和o1上的成功率超过90%,显著超越了所有先前的顶尖攻击方法。我们优化后的对抗样本在不同配置下的实现及训练代码已公开于https://github.com/VILA-Lab/M-Attack。
我们推出PerCoV2,这是一种新颖且开源的超低比特率感知图像压缩系统,专为带宽和存储受限的应用场景设计。在Careil等人先前工作的基础上,PerCoV2将原有框架扩展至Stable Diffusion 3生态系统,并通过显式建模离散超潜在图像分布,提升了熵编码效率。为此,我们对近期自回归方法(VAR与MaskGIT)在熵建模方面进行了全面比较,并在大规模MSCOCO-30k基准上评估了我们的方法。相较于以往研究,PerCoV2具有以下优势:(i) 在更低比特率下实现更高的图像保真度,同时保持竞争力的感知质量;(ii) 引入混合生成模式以进一步节省比特率;(iii) 完全基于公开组件构建。代码及训练模型将在https://github.com/Nikolai10/PerCoV2 发布。
本文介绍了一种名为PoseLess的新型机器人手部控制框架,该框架通过利用投影表示直接将二维图像映射到关节角度,从而消除了对显式姿态估计的需求。我们的方法采用随机关节配置生成的合成训练数据,实现了对真实场景的零样本泛化以及从机器人手到人手的跨形态迁移。通过投影视觉输入并采用基于Transformer的解码器,PoseLess在解决深度模糊性和数据稀缺等挑战的同时,实现了鲁棒且低延迟的控制。实验结果表明,在不依赖任何人工标注数据集的情况下,该框架在关节角度预测精度上展现出具有竞争力的性能。
无分类器引导已成为条件生成任务中降噪扩散模型的标准配置。然而,对于无分类器引导的全面理解仍显不足。本研究通过实证分析,为无分类器引导提供了新的视角。具体而言,我们不仅关注无分类器引导,更追溯其根源——分类器引导,明确推导过程中的关键假设,并系统性地探讨了分类器的作用。研究发现,无论是分类器引导还是无分类器引导,都是通过将降噪扩散轨迹推离决策边界来实现条件生成的,这些边界区域通常是条件信息相互交织且难以学习的区域。基于这一以分类器为核心的理解,我们提出了一种基于流匹配的通用后处理步骤,旨在缩小预训练降噪扩散模型所学分布与真实数据分布之间的差距,特别是在决策边界附近。多项数据集上的实验验证了所提方法的有效性。