每日精选AI研究论文及翻译
本技术报告提出了一种经济高效的视频生成基础模型训练策略。我们介绍了一个中等规模的研究模型,名为Seaweed-7B,拥有约70亿参数(7B),从零开始训练共消耗了665,000小时的H100 GPU算力。尽管在计算资源有限的情况下进行训练,Seaweed-7B相较于规模大得多的当代视频生成模型,展现出了极具竞争力的性能。在资源受限的环境中,设计选择尤为关键。本报告着重阐述了提升中等规模扩散模型性能的关键设计决策。通过实证研究,我们得出两点观察:(1) Seaweed-7B在性能上可与甚至超越那些消耗了更多GPU资源训练的大型模型相媲美;(2) 我们的模型展现出强大的泛化能力,能够通过轻量级微调或持续训练,有效适应广泛的下游应用场景。更多详情请访问项目页面:https://seaweed.video/。
在自回归(AR)图像生成中,视觉分词器将图像压缩为紧凑的离散潜在标记,从而通过下一标记预测高效训练下游自回归模型以实现视觉生成。尽管扩大视觉分词器规模能提升图像重建质量,却往往导致下游生成质量下降——这一挑战在现有文献中尚未得到充分解决。为此,我们引入了GigaTok,这是首个在扩大视觉分词器规模时,同步提升图像重建、生成及表征学习性能的方法。我们识别出潜在空间复杂度增加是重建与生成之间矛盾的关键因素。为缓解此问题,我们提出了语义正则化,它将分词器特征与预训练视觉编码器中的语义一致特征对齐。这一约束在扩大规模时防止了潜在空间过度复杂化,从而在重建和下游自回归生成两方面均实现了持续改进。基于语义正则化,我们探索了扩大分词器规模的三大关键实践:(1)采用一维分词器以增强可扩展性,(2)在同时扩展编码器和解码器时优先考虑解码器扩展,(3)运用熵损失以稳定十亿级规模分词器的训练。通过将参数规模扩展至30亿,GigaTok在重建、下游AR生成及下游AR表征质量上均达到了业界领先水平。
世界建模是使智能体能够有效与人类互动并在动态环境中运作的关键任务。在本研究中,我们提出了MineWorld,一个基于Minecraft的实时交互式世界模型,Minecraft作为一个开放式的沙盒游戏,已被广泛用作世界建模的通用测试平台。MineWorld由一个视觉-动作自回归Transformer驱动,该模型以成对的游戏场景及相应动作为输入,生成遵循这些动作的后续新场景。具体而言,通过使用图像分词器和动作分词器分别将视觉游戏场景和动作转换为离散的token ID,我们将这两类ID交错拼接构成模型输入。随后,模型通过下一token预测进行训练,以同时学习游戏状态的丰富表示以及状态与动作之间的条件关系。在推理阶段,我们开发了一种新颖的并行解码算法,该算法同时预测每帧中的空间冗余token,使得不同规模的模型能够每秒生成4至7帧,实现与游戏玩家的实时交互。在评估中,我们提出了新的指标,不仅评估生成新场景的视觉质量,还评估其动作跟随能力,这对于世界模型至关重要。我们的全面评估展示了MineWorld的有效性,显著超越了当前最先进的基于扩散的开源世界模型。代码与模型已公开发布。
近期,DeepSeek R1 的研究表明,通过一种简洁而高效的设计,强化学习(RL)能够显著提升大型语言模型(LLMs)的推理能力。R1 的核心在于其基于规则的奖励机制,该机制利用具有确定性标准答案的任务,实现了精确且稳定的奖励计算。在视觉领域,我们同样观察到,众多视觉理解任务天然具备明确的标准标注,这一特性使得它们与基于规则的奖励机制自然契合。受此启发,我们探索将 R1 风格的强化学习扩展至视觉-语言模型(VLMs),旨在增强其视觉推理能力。为此,我们开发了 VLM-R1,这是一个专为利用 RL 提升 VLMs 在通用视觉-语言任务上表现而设计的框架。借助此框架,我们进一步探讨了 RL 在视觉领域应用的可行性。实验结果显示,基于 RL 的模型不仅在视觉理解任务上展现出竞争力,而且在泛化能力上超越了监督微调(SFT)。此外,我们进行了全面的消融研究,揭示了一系列值得关注的发现,包括目标检测中的奖励欺骗现象、“OD 顿悟时刻”的出现、训练数据质量的影响,以及 RL 在不同模型规模下的扩展行为。通过这些分析,我们旨在深化对强化学习如何增强视觉-语言模型能力的理解,并希望我们的发现与开源贡献能推动视觉-语言 RL 社区的持续进步。我们的代码和模型已发布于 https://github.com/om-ai-lab/VLM-R1。
自然语言转SQL(NL2SQL)通过将自然语言查询转化为结构化的SQL语句,实现了与数据库的直观交互。尽管近年来在增强数据库应用中的人机交互方面取得了进展,但在涉及多表连接和嵌套查询的复杂场景下,推理性能仍面临重大挑战。当前方法主要采用监督微调(SFT)来训练NL2SQL模型,这在新环境(如金融和医疗)中可能限制其适应性和可解释性。为了提升NL2SQL模型在上述复杂情况下的推理性能,我们引入了SQL-R1,一种通过强化学习(RL)算法训练的新型NL2SQL推理模型。我们设计了一种专为NL2SQL任务定制的基于RL的奖励函数,并探讨了冷启动对强化训练效果的影响。此外,我们仅使用少量合成的NL2SQL数据进行增强训练,便达到了具有竞争力的准确率,并进一步探索了RL中的数据工程。在现有实验中,SQL-R1在基准测试Spider和BIRD上分别实现了88.6%和66.6%的执行准确率,仅使用了7B的基础模型。
近期,生成模型在图像修复领域取得了显著进展,尤其是通过强大的扩散模型实现了语义细节和局部保真度的卓越恢复。然而,在超高分辨率下部署这些模型时,由于长程注意力机制的计算需求,面临着质量与效率之间的关键权衡。为解决这一问题,我们提出了ZipIR,这一新颖框架旨在提升高分辨率图像修复的效率、可扩展性及长程建模能力。ZipIR采用了一种高度压缩的潜在表示,将图像压缩32倍,有效减少了空间标记的数量,并使得如扩散变换器(DiT)等高容量模型的应用成为可能。为此,我们设计了一种潜在金字塔变分自编码器(LP-VAE),通过将潜在空间结构化至子带,简化了扩散训练过程。ZipIR在高达2K分辨率的完整图像上进行训练,超越了现有的基于扩散的方法,在从严重退化的输入中恢复高分辨率图像时,提供了无与伦比的速度与质量。
我们推出PixelFlow,这是一系列直接在原始像素空间操作的图像生成模型,与主流的潜在空间模型形成鲜明对比。该方法通过省去预训练变分自编码器(VAE)的需求,使整个模型可端到端训练,从而简化了图像生成流程。通过高效的级联流建模,PixelFlow在像素空间中实现了可承受的计算成本。在256×256 ImageNet类别条件图像生成基准测试中,其FID值达到1.98。定性文本到图像生成结果表明,PixelFlow在图像质量、艺术性及语义控制方面表现卓越。我们期待这一新范式能为下一代视觉生成模型带来启发,开辟新机遇。代码与模型已发布于https://github.com/ShoufaChen/PixelFlow。
随着二维生成模型的快速发展,如何在保持主体身份的同时实现多样化编辑已成为一个关键研究焦点。现有方法通常在身份保持与个性化操控之间面临固有的权衡。我们提出了FlexIP这一创新框架,通过两个专用组件——用于风格操控的个性化适配器和用于身份保持的保持适配器——将这两个目标解耦。通过将这两种控制机制显式注入生成模型,我们的框架在推理过程中通过动态调整权重适配器实现了灵活的参数化控制。实验结果表明,我们的方法突破了传统方法的性能局限,在支持更丰富的个性化生成能力的同时,实现了更优的身份保持效果(项目页面:https://flexip-tech.github.io/flexip/)。
我们提出了一种利用多模态大语言模型(MLLMs)的系统,旨在分析包含数千万张不同时间拍摄图像的大型数据库,以发现时间变化中的模式。具体而言,我们的目标是捕捉城市在特定时期内频繁共现的变化(“趋势”)。与以往的视觉分析不同,我们的分析能够回答开放式查询(例如,“城市中频繁发生的变化类型有哪些?”),而无需任何预定的目标对象或训练标签。这些特性使得先前基于学习或无监督的视觉分析工具不再适用。我们认定MLLMs因其开放式语义理解能力而成为一种新颖工具。然而,我们的数据集规模对于MLLM作为上下文输入来说大了四个数量级。因此,我们引入了一种自下而上的方法,将庞大的视觉分析问题分解为更易处理的子问题。我们精心设计了基于MLLM的解决方案来应对每个子问题。在系统实验和消融研究中,我们发现其显著优于基线方法,并能够从大城市拍摄的图像中发现有趣趋势(例如,“户外餐饮的增加”、“天桥被涂成蓝色”等)。更多结果和互动演示请访问https://boyangdeng.com/visual-chronicles。
我们提出了一项新任务——In-2-4D,旨在从极简的输入设置中生成四维(即三维加运动)插帧:仅需两幅单视角图像,分别捕捉物体在两个不同运动状态下的瞬间。给定代表运动物体起始与终止状态的两幅图像,我们的目标是生成并重建其四维运动轨迹。我们采用视频插值模型来预测运动,但帧间大幅度的运动可能导致解释上的模糊性。为此,我们采用分层策略,识别出视觉上接近输入状态且展现显著运动的关键帧,随后在这些关键帧之间生成平滑的片段。对于每个片段,我们利用高斯溅射技术构建关键帧的三维表示。片段内的时间帧引导运动,通过变形场将其转化为动态高斯分布。为了提升时间一致性并优化三维运动,我们扩展了多视角扩散模型在时间步上的自注意力机制,并应用刚体变换正则化。最后,我们通过插值边界变形场并优化其与引导视频的对齐,将独立生成的三维运动片段合并,确保过渡平滑无闪烁。通过大量定性、定量实验及用户研究,我们验证了该方法及其各组成部分的有效性。项目页面详见https://in-2-4d.github.io/。
尽管大型语言模型(LLMs)在基准测试中得分颇高,却常在简单问题上失手,这引发了一个关键问题:LLMs是在学习数学原理,还是仅仅在记忆模式?不同于近期研究设计日益复杂的基准测试,我们通过考察基础的两整数加法(0至2^{64}),探究了两个核心特性:交换律(A+B=B+A)和组合泛化能力(通过同构符号映射,如7→y)。虽然最先进的LLMs在数值加法上达到了73.8%-99.8%的准确率,但在符号映射下,其表现骤降至≤7.5%,表明其未能泛化所学规则。随着数字位数增加而出现的非单调性能扩展,以及频繁违反交换律的情况(超过1700例A+B≠B+A),进一步支持了这一结论。明确提供加法规则反而使性能平均下降81.2%,而自我解释则保持了基线准确率,暗示LLM的算术处理与人类定义的原理存在偏差。我们的发现表明,当前LLMs依赖记忆模式而非真正的规则学习,凸显了架构上的局限,并强调了实现真正数学推理需要新方法的必要性。
诸如DeBERTaV3和ModernBERT等预训练Transformer编码器模型引入了旨在提升效率与性能的架构创新。尽管ModernBERT的研发者报告称其在多项基准测试上表现优于DeBERTaV3,但由于未公开训练数据且缺乏基于共享数据集的对比,难以判断这些提升是源于架构改进还是训练数据的差异。在本研究中,我们通过将ModernBERT与CamemBERTaV2(一个基于DeBERTaV3的法语模型)在同一数据集上进行预训练,开展了一项控制实验,以隔离模型设计的影响。结果表明,上一代模型在样本效率和整体基准性能上仍占优势,而ModernBERT的主要优势在于更快的训练和推理速度。尽管如此,与BERT和RoBERTa等早期模型相比,新提出的模型仍展现出显著的架构改进。此外,我们观察到高质量预训练数据虽能加速收敛,但对最终性能提升有限,暗示了基准测试可能已接近饱和。这些发现强调了在评估Transformer模型时,区分预训练数据与架构创新各自贡献的重要性。
检索增强生成(RAG)模型在知识密集型任务中表现出色,尤其在少样本学习限制下。我们提出了CoRAG框架,将RAG扩展至协作场景,其中客户端通过共享的段落库共同训练一个模型。为评估CoRAG,我们引入了CRAB基准,用于协作式同质开放域问答。实验表明,在资源匮乏的情境下,CoRAG持续超越参数化协作学习方法及本地训练的RAG模型。深入分析揭示了共享库中相关段落的关键作用、引入无关段落带来的意外益处,以及硬负样本可能对性能产生的负面影响。这为协作式RAG引入了一个新的考量:在利用集体丰富知识库的优势与可能引入其他客户端有害段落的风险之间寻求平衡。我们的发现不仅证实了CoRAG的可行性,同时也指出了关键的设计挑战及未来研究的有望方向。
近期,文本到视频(T2V)扩散模型的进展显著提升了生成视频的视觉质量。然而,即便是最新的T2V模型,在准确遵循文本描述方面仍面临挑战,特别是当提示需要精确控制空间布局或物体轨迹时。最近的一项研究采用布局引导方法,这些方法需要在推理时进行微调或对注意力图进行迭代操作,这大大增加了内存需求,使得难以采用大型T2V模型作为骨干。为解决这一问题,我们提出了Video-MSG,一种基于多模态规划和结构化噪声初始化的免训练T2V生成引导方法。Video-MSG包含三个步骤:在前两步中,它创建视频草图,为最终视频制定细粒度的时空计划,以草稿视频帧的形式指定背景、前景及物体轨迹;最后一步,Video-MSG通过噪声反转和去噪,利用视频草图引导下游的T2V扩散模型。值得注意的是,Video-MSG在推理时无需微调或额外的注意力图操作,从而更易于采用大型T2V模型。Video-MSG在多个T2V骨干模型(VideoCrafter2和CogVideoX-5B)上,在流行的T2V生成基准测试(T2VCompBench和VBench)中,展现了其在增强文本对齐方面的有效性。我们提供了关于噪声反转比例、不同背景生成器、背景物体检测及前景物体分割的全面消融研究。
在医学影像领域,主要挑战在于因隐私顾虑、物流难题及高昂标注成本导致的大规模标注数据收集困难。本研究中,我们推出了UK Biobank器官与骨骼(UKBOB)数据集,这是迄今为止最大的身体器官标注数据集,包含51,761个MRI三维样本(相当于1790万张二维图像)以及超过13.7亿个二维分割掩码,涵盖72个器官,全部基于UK Biobank的MRI数据集构建。我们采用自动标注技术,引入了一套带有器官特异性过滤器的自动化标签清洗流程,并手动标注了包含11个腹部类别的300个MRI子集以验证数据质量(称为UKBOB-manual)。这一方法在扩大数据集规模的同时,确保了标签的可靠性。我们通过展示训练模型在过滤后的UKBOB数据上对相似领域(如腹部MRI)其他小型标注数据集的零样本泛化能力,进一步验证了标签的有效性。为减轻噪声标签的影响,我们提出了一种名为熵测试时适应(ETTA)的新方法,用于优化分割输出。利用UKBOB,我们训练了一个基于Swin-UNetr架构的基础模型——Swin-BOB,用于三维医学图像分割,在多项三维医学影像基准测试中取得了最先进的结果,包括BRATS脑MRI肿瘤挑战赛(提升0.4%)和BTCV腹部CT扫描基准测试(提升1.3%)。预训练模型及代码已发布于https://emmanuelleb985.github.io/ukbob,过滤后的标签将随UK Biobank一同公开。
在电影制作和游戏设计等应用中,3D图形编辑至关重要,然而这一过程依然耗时且需要高度专业化的领域知识。自动化这一过程颇具挑战,因为图形编辑涉及执行多种任务,每种任务都需要不同的技能组合。最近,视觉-语言模型(VLMs)作为一种强大的框架崭露头角,用于自动化编辑流程,但其开发与评估却因缺乏一个要求人类级别感知并呈现真实世界编辑复杂性的综合基准而受阻。在本研究中,我们推出了BlenderGym,这是首个针对3D图形编辑的全面VLM系统基准。BlenderGym通过基于代码的3D重建任务来评估VLM系统。我们对闭源和开源的VLM系统进行了评估,发现即便是最先进的VLM系统,在处理对人类Blender用户相对容易的任务时也显得力不从心。借助BlenderGym,我们研究了推理扩展技术如何影响VLM在图形编辑任务上的表现。值得注意的是,我们的发现表明,用于指导生成扩展的验证器本身也能通过推理扩展得到改进,这补充了最近关于LLM生成在编码和数学任务中推理扩展的见解。我们进一步展示了推理计算并非均匀有效,可以通过在生成与验证之间策略性地分配计算资源来优化其效果。
本研究提出了一种新型的编码器-解码器扩散框架——潜在扩散自编码器(LDAE),旨在实现高效且富有意义的无监督学习,特别是在医学影像领域,以阿尔茨海默病(AD)为案例,利用ADNI数据库中的脑部磁共振成像(MR)数据进行研究。与传统的在图像空间操作的扩散自编码器不同,LDAE在压缩的潜在表示中应用扩散过程,从而提升了计算效率,使得三维医学影像的表示学习变得可行。为验证所提方法,我们探讨了两个关键假设:(i)LDAE能有效捕捉与AD及衰老相关的三维脑部MR图像中的语义表示;(ii)LDAE在保持计算高效的同时,能够实现高质量的图像生成与重建。实验结果支持了这两个假设:(i)线性探针评估显示,LDAE在AD诊断(ROC-AUC:90%,准确率:84%)和年龄预测(MAE:4.1年,RMSE:5.2年)方面表现出色;(ii)学习到的语义表示支持属性操控,产生解剖学上合理的修改;(iii)语义插值实验表明,对于缺失扫描的重建效果显著,6个月间隔的SSIM达到0.969(MSE:0.0019)。即便对于更长的间隔(24个月),模型仍保持稳健性能(SSIM > 0.93,MSE < 0.004),显示出捕捉时间进展趋势的能力;(iv)与传统扩散自编码器相比,LDAE显著提升了推理吞吐量(快20倍),同时提高了重建质量。这些发现使LDAE成为可扩展医学影像应用的一个有前景的框架,并有望作为医学图像分析的基础模型。代码可在https://github.com/GabrieleLozupone/LDAE获取。
近期,推理计算技术的进步通过利用大型推理模型(LRMs)生成长链思维(CoTs),在复杂任务上显著提升了性能。然而,这种准确性的提升伴随着高推理延迟的代价,这源于生成的推理序列长度及解码过程中的自回归特性。我们解决这些开销的关键洞见在于,LRM推理及其嵌入的推理过程对近似处理具有高度容忍性:复杂任务通常被分解为更简单的步骤,每一步的效用基于其为后续步骤提供的语义洞察,而非其生成的确切标记。基于此,我们引入了SpecReason系统,该系统通过使用轻量级模型(推测性地)执行较简单的中间推理步骤,并仅保留成本高昂的基础模型来评估(并可能修正)推测输出,从而自动加速LRM推理。重要的是,SpecReason专注于利用思维标记在保持最终答案准确性方面的语义灵活性,这与之前的推测技术(尤其是要求每一步标记级等价的推测解码)形成互补。在多种推理基准测试中,SpecReason相比原始LRM推理实现了1.5至2.5倍的加速,同时将准确性提高了1.0%至9.9%。与未结合SpecReason的推测解码相比,两者结合进一步减少了19.4%至44.2%的延迟。我们在https://github.com/ruipeterpan/specreason开源了SpecReason。
我们提出了InteractVLM,一种从单张野外图像中估计人体与物体间三维接触点的新方法,实现了精确的人体-物体三维联合重建。这一任务面临遮挡、深度模糊及物体形状多样性的挑战。现有方法依赖于通过昂贵动作捕捉系统或繁琐手动标注收集的三维接触数据,限制了其可扩展性和泛化能力。为解决这一问题,InteractVLM利用大规模视觉-语言模型(VLMs)的广泛视觉知识,并通过有限的三维接触数据进行微调。然而,直接应用这些模型并非易事,因为它们仅在二维空间进行推理,而人体与物体的接触本质上是三维的。因此,我们引入了一个新颖的渲染-定位-提升模块,该模块:(1)通过多视角渲染将三维人体和物体表面嵌入二维空间,(2)训练一个新颖的多视角定位模型(MV-Loc)以在二维中推断接触点,(3)将这些接触点提升至三维。此外,我们提出了一项新任务——语义人体接触估计,其中人体接触预测明确基于物体语义,从而实现了更丰富的交互建模。InteractVLM在接触估计上超越了现有工作,并促进了从野外图像进行三维重建。代码和模型可在https://interactvlm.is.tue.mpg.de获取。
机器学习中的遗忘技术是一种提升大语言模型安全性的有效途径,旨在从模型中移除不需要的知识。然而,当前主流的基于梯度的遗忘方法存在诸多问题,如高计算成本、超参数不稳定性、序列遗忘能力差、易受再学习攻击、数据效率低下以及缺乏可解释性。尽管稀疏自编码器(Sparse Autoencoders, SAEs)通过实现基于激活的定向遗忘有望改善这些方面,但先前的方法表现不如基于梯度的方法。本研究揭示,与早期发现相反,动态应用SAEs能显著提升遗忘效果。我们提出了动态DAE防护栏(Dynamic DAE Guardrails, DSG),这是一种新颖的精确遗忘方法,它结合了原则性的特征选择和动态分类器。实验表明,DSG在遗忘-效用权衡上大幅领先于现有遗忘方法,有效解决了基于梯度方法的关键缺陷——提供了更高的计算效率和稳定性、在序列遗忘中的稳健表现、更强的抗再学习攻击能力、包括零样本设置在内的更优数据效率,以及更具可解释性的遗忘过程。