每日精选AI研究论文及翻译
扩散语言模型相较于自回归模型展现出独特优势,其并行生成潜力与可控性尤为突出,然而在似然建模方面稍显不足,且局限于固定长度生成。本研究提出了一类块扩散语言模型,巧妙融合了离散去噪扩散与自回归模型的特点。块扩散技术通过支持灵活长度生成,并利用KV缓存与并行令牌采样提升推理效率,成功克服了两种方法的关键局限。我们提出了一套构建高效块扩散模型的方案,包括高效的训练算法、梯度方差估计器以及数据驱动的噪声调度策略,以最小化方差。在语言建模基准测试中,块扩散模型确立了扩散模型的新标杆,并实现了任意长度序列的生成。项目页面提供了代码、模型权重及博客文章,详情请访问:https://m-arriola.com/bd3lms/。
视频扩散模型的发展揭示了一个重大挑战:巨大的计算需求。为缓解这一挑战,我们注意到扩散的反向过程具有固有的熵减特性。鉴于视频模态中帧间存在冗余,在高熵阶段维持全帧率并无必要。基于这一洞察,我们提出了TPDiff,一个统一的框架,旨在提升训练和推理效率。通过将扩散过程划分为多个阶段,我们的框架在扩散过程中逐步提升帧率,仅最后一个阶段以全帧率运行,从而优化计算效率。为了训练多阶段扩散模型,我们引入了一种专门的训练框架:分阶段扩散。通过在对齐的数据和噪声下求解扩散的分段概率流常微分方程(ODE),我们的训练策略适用于多种扩散形式,并进一步提升了训练效率。全面的实验评估验证了我们方法的普适性,展示了训练成本降低50%和推理效率提升1.5倍的显著成效。
条件运动生成在计算机视觉领域已得到广泛研究,但仍面临两大关键挑战。首先,尽管掩码自回归方法近期超越了基于扩散的方法,现有掩码模型缺乏根据给定条件优先处理动态帧和身体部位的机制。其次,现有针对不同条件模态的方法往往难以有效整合多模态信息,限制了生成运动的控制性和连贯性。为解决这些挑战,我们提出了Motion Anything,一个多模态运动生成框架,引入了基于注意力的掩码建模方法,实现了对关键帧和动作的精细时空控制。我们的模型自适应地编码包括文本和音乐在内的多模态条件,提升了可控性。此外,我们推出了Text-Music-Dance (TMD),一个包含2,153对文本、音乐和舞蹈的新运动数据集,其规模是AIST++的两倍,填补了该领域的重要空白。大量实验表明,Motion Anything在多个基准测试中超越了现有最先进方法,在HumanML3D上FID提升了15%,并在AIST++和TMD上展现出持续的性能优势。详情请访问我们的项目网站:https://steve-zeyu-zhang.github.io/MotionAnything。
我们提出了Reangle-A-Video,这是一个从单一输入视频生成同步多视角视频的统一框架。与主流方法在大规模4D数据集上训练多视角视频扩散模型不同,我们的方法将多视角视频生成任务重新定义为视频到视频的转换,利用公开可用的图像和视频扩散先验。本质上,Reangle-A-Video分两个阶段运行。(1) 多视角运动学习:以自监督的方式同步微调一个图像到视频的扩散变换器,从一组扭曲的视频中提取视角不变的运动。(2) 多视角一致的图像到图像转换:在推理时使用DUSt3R进行跨视角一致性指导,将输入视频的第一帧扭曲并修复成不同的相机视角,生成多视角一致的起始图像。在静态视角转换和动态相机控制上的大量实验表明,Reangle-A-Video超越了现有方法,为多视角视频生成确立了一种新的解决方案。我们将公开代码和数据。项目页面:https://hyeonho99.github.io/reangle-a-video/
高效获取外部知识与最新信息对于大型语言模型(LLMs)进行有效推理和文本生成至关重要。检索增强与工具使用训练方法,如将搜索引擎视为工具,往往缺乏复杂的多轮检索灵活性,或需要大规模监督数据。在推理过程中提示具备推理能力的高级LLMs使用搜索引擎并非最佳方案,因为LLM并未学会如何与搜索引擎进行最优交互。本文介绍了Search-R1,作为DeepSeek-R1模型的扩展,其中LLM仅通过强化学习(RL)自主生成(多个)搜索查询,在逐步推理过程中实现实时检索。Search-R1通过多轮搜索交互优化LLM的展开过程,利用检索到的令牌掩码确保RL训练的稳定性,并采用基于结果的简单奖励函数。在七个问答数据集上的实验表明,Search-R1相较于当前最优基线,性能分别提升了26%(Qwen2.5-7B)、21%(Qwen2.5-3B)和10%(LLaMA3.2-3B)。本文还进一步提供了关于RL优化方法、LLM选择及检索增强推理中响应长度动态的实证见解。代码与模型检查点可在https://github.com/PeterGriffinJin/Search-R1获取。
基于可验证结果奖励的强化学习(RLVR)已有效扩展了大语言模型(LLMs)中的思维链(CoT)推理能力。然而,其在训练视觉语言模型(VLM)代理于视觉环境中进行目标导向动作推理的效果尚不明确。本研究通过复杂纸牌游戏(如24点)及ALFWorld中的具身任务进行了广泛实验,探讨了这一问题。我们发现,当奖励仅基于动作结果时,RL无法激励VLMs中的CoT推理,反而导致了一种我们称之为“思维崩溃”的现象,表现为代理思维多样性迅速丧失、状态无关且不完整的推理,以及随之而来的无效动作,最终导致负奖励。为应对思维崩溃,我们强调了过程指导的必要性,并提出了一种自动校正器,该校正器在每一步RL中评估并优化代理的推理。这一简洁且可扩展的GTR(引导思维强化)框架无需密集的逐步人工标注,即可同时训练推理与动作。实验表明,GTR显著提升了LLaVA-7b模型在多种视觉环境中的性能与泛化能力,相较于当前最先进模型,任务成功率提高了3至5倍,且模型规模显著更小。
检索增强生成(RAG)为大型语言模型(LLMs)提供了相关文档。尽管先前的研究指出,检索大量文档可能会降低性能,但它们并未在控制上下文长度的前提下,单独考察文档数量对性能的影响。我们基于多跳问答任务构建了定制数据集,对多种语言模型进行了评估。在保持上下文长度及相关信息位置不变的同时,我们调整了文档数量,发现增加RAG设置中的文档数量对LLMs构成了显著挑战。此外,我们的结果表明,处理多个文档与处理长上下文是两种不同的挑战。我们同时公开了数据集与代码:https://github.com/shaharl6000/MoreDocsSameLen。
分数蒸馏采样(Score Distillation Sampling, SDS)作为一种有效技术,已成功应用于利用二维扩散先验完成诸如文本到三维生成等任务。尽管功能强大,SDS在实现用户意图的精细对齐方面仍面临挑战。为此,我们提出了RewardSDS,一种创新方法,它依据奖励模型的对齐分数对噪声样本进行加权,从而生成加权的SDS损失函数。该损失函数优先考虑那些能产生高奖励对齐输出的噪声样本梯度。我们的方法具有广泛适用性,并能扩展基于SDS的技术。特别地,我们通过引入RewardVSD,展示了其在变分分数蒸馏(Variational Score Distillation, VSD)中的应用潜力。我们在文本到图像生成、二维编辑及文本到三维生成任务上对RewardSDS和RewardVSD进行了评估,结果表明,在衡量生成质量及与期望奖励模型对齐的多种指标上,相较于SDS和VSD,两者均展现出显著提升,实现了业界领先的性能。项目页面详见https://itaychachy.github.io/reward-sds/。
尽管大型语言模型(LLMs)在多项任务中展现了卓越性能,它们仍易出错。一个核心挑战在于如何使其具备自我纠错能力。以往研究多依赖外部工具或大型专有模型,而本工作则探索了通过仅使用自生成数据进行迭代微调,在小语言模型(SLMs)中实现自我校正。我们提出了自教导自我校正(STaSC)算法,该算法融合了多项算法设计选择。在问答任务上的实验结果表明,STaSC能有效学习自我校正,带来显著的性能提升。我们的分析进一步揭示了自我校正的机制,以及不同设计选择对学习动态和整体性能的影响。为支持未来研究,我们公开了用户友好的代码库和轻量级模型。
近期的大型语言模型(LLMs)在遵循用户指令方面展现了显著成效,然而处理包含多重约束的指令仍是一项重大挑战。本研究中,我们推出了WildIFEval——一个包含12,000条真实用户指令的大规模数据集,这些指令具有多样化的多约束条件。与以往数据集不同,我们的收集涵盖了自然用户提示中广泛的词汇和主题约束范围。我们将这些约束划分为八大高层类别,以捕捉其在现实场景中的分布与动态。依托WildIFEval,我们进行了大量实验,对主流LLMs的指令遵循能力进行了基准测试。研究结果表明,随着约束数量的增加,所有评估模型均出现性能下降,这表明所有模型在此类任务上均有较大提升空间。此外,我们发现特定类型的约束对模型性能起着关键作用。我们公开此数据集,旨在推动在复杂现实条件下指令遵循能力的进一步研究。
人类日常活动可简洁地描述为视频流中一系列常规事件(如关闭闹钟)的序列,从而构成一个事件词汇表。受此启发,我们提出了VLog,一种新颖的视频理解框架,它将视频叙述定义为词汇,超越了现有生成式视频-语言模型中常见的子词词汇表。基于轻量级语言模型GPT-2,VLog具备三大创新点:(i) 生成式检索模型,融合了语言模型的复杂推理能力与对比检索的高效相似性搜索。(ii) 通过我们的叙述对编码算法从大规模视频叙述中提取的层次化词汇表,能够通过识别更广泛的场景(如厨房)及富有表现力的后缀(如用左手)来高效索引特定事件(如切番茄)。(iii) 利用生成模型扩展词汇表的策略,以应对推理过程中遇到的新事件。为验证我们的方法,我们引入了VidCap-Eval,一个需要包含推理关系(如之前与之后)的简洁叙述的开发集。在EgoSchema、COIN和HiREST上的实验进一步证明了VLog的有效性,展示了其生成简洁、上下文准确且高效叙述的能力,为视频理解提供了新的视角。代码已发布于https://github.com/showlab/VLog。
大型语言模型(LLMs)在代码生成方面展现了令人瞩目的能力,尤其是在自动实现自然语言描述的需求方面。LLM的效能通常随其规模增长而提升:可训练参数越多,其代码实现能力越强。然而,在部署基于LLM的代码生成器时,更大的LLM带来了显著的内存(及相应的碳)足迹挑战。Wei等人先前的研究提出利用量化技术来减少基于LLM的代码生成器的内存占用,而不显著降低其效能。简而言之,他们研究了参数高达160亿的LLM,将其精度从32位浮点数降至8位整数,并展示了这对代码生成性能的有限影响。鉴于LLM能力和量化技术快速发展的现状,本研究对Wei等人的工作进行了差异化复现,我们考虑了:(i)一方面,更新、更大的代码相关LLM,参数规模高达340亿;(ii)模型量化技术的最新进展,允许将压缩推向每个模型参数仅2比特的极端量化水平;以及(iii)指导量化过程的不同类型校准数据集,包括专门针对代码的数据集。我们的实证评估表明,LLM量化的新前沿是4比特精度,相比原始模型平均减少了70%的内存占用,且未观察到性能的显著下降。此外,当量化更为极端(3比特和2比特)时,使用代码特定的校准数据集有助于限制性能损失。
生成式学习模型在图像到图像转换方面的能力近期取得了显著进展,特别是在估计图像分布间复杂(可操控)映射方面。尽管基于外观的任务,如图像修复或风格迁移,已被深入研究,我们提议探索生成模型在物理模拟背景下的潜力。通过提供一个包含30万对图像的数据集及针对三种不同物理模拟任务的基线评估,我们提出了一个基准来探究以下研究问题:i) 生成模型能否从输入输出图像对中学习复杂的物理关系?ii) 通过替代基于微分方程的模拟,能实现多大的加速?当前不同模型的基线评估结果展示了实现高加速比的潜力(ii),但同时也揭示了在物理正确性方面存在显著局限(i)。这强调了开发新方法以确保物理正确性的必要性。数据、基线模型及评估代码详见http://www.physics-gen.org。
高效理解大规模遥感图像(RSIs)的视觉-语言信息具有重要意义,但也充满挑战。当前的大型视觉-语言模型(LVLMs)通常采用有限的预定义网格处理图像,导致在处理千兆像素级RSIs时信息丢失。相反,使用无限制网格会显著增加计算成本。为了在降低计算复杂度的同时保留图像细节,我们提出了一种结合动态图像金字塔(DIP)的文本引导令牌剪枝方法。该方法包括:(i)区域聚焦模块(RFM),利用文本感知的区域定位能力识别关键视觉令牌;(ii)基于DIP的从粗到细的图像瓦片选择与视觉令牌剪枝策略,该策略由RFM输出引导,避免直接处理整个大尺寸图像。此外,现有评估LVLMs在大规模RSI上感知能力的基准存在问题多样性不足和图像尺寸受限的问题。我们构建了一个名为LRS-VQA的新基准,包含8个类别的7,333个问答对,图像长度可达27,328像素。在相同数据条件下,我们的方法在四个数据集上均优于现有的高分辨率策略。与现有的令牌缩减方法相比,我们的方法在高分辨率设置下展现出更高的效率。数据集和代码可在https://github.com/VisionXLab/LRS-VQA获取。
大型行动模型(LAMs)虽已革新智能自动化领域,但其在医疗健康中的应用却因隐私顾虑、延迟问题及对互联网连接的依赖而面临挑战。本报告介绍了一款设备端多代理医疗助手,有效克服了这些局限。该系统采用小型化、任务专精的代理,以优化资源利用,确保可扩展性与高性能。我们提出的系统集成了预约挂号、健康监测、用药提醒及日常健康报告等功能,成为一站式医疗解决方案。依托Qwen Code Instruct 2.5 7B模型,规划与呼叫代理在任务执行中分别实现了平均85.5和96.5的RougeL评分,同时保持轻量化,便于设备端部署。这一创新方法融合了设备端系统与多代理架构的优势,为以用户为中心的医疗解决方案开辟了新路径。
潜在扩散模型(LDMs)因其生成过程的不稳定性而闻名,即使输入噪声中的微小扰动或偏移也可能导致显著不同的输出结果。这一特性限制了其在需要一致性的应用场景中的适用性。在本研究中,我们通过重新设计LDMs,使其具备平移等变性,从而增强一致性。虽然引入抗混叠操作能在一定程度上改善平移等变性,但由于LDMs特有的挑战,包括1)在VAE训练和多次U-Net推理过程中混叠效应的放大,以及2)自注意力模块本质上缺乏平移等变性,显著的混叠和不一致性问题依然存在。为解决这些问题,我们重新设计了注意力模块以实现平移等变性,并提出了一种等变性损失函数,有效抑制了连续域中特征的频率带宽。由此得到的无混叠LDM(AF-LDM)实现了强大的平移等变性,并且对不规则形变也表现出鲁棒性。大量实验表明,在视频编辑和图像到图像转换等多种应用中,AF-LDM相比原始LDM能产生显著更一致的结果。代码已发布于:https://github.com/SingleZombie/AFLDM。
构建高效且性能卓越的Transformer架构大型语言模型(LLMs)近期成为研究热点,其核心在于最大化模型的语言处理能力,同时最小化训练与部署成本。现有研究主要聚焦于模型性能、参数规模与数据量之间的复杂关系,并探寻训练LLMs的最优计算资源分配方案。然而,这些研究往往忽视了上下文长度及注意力头配置(在分组查询注意力中查询与键值头的数量)对训练与推理的影响。本文中,我们系统性地比较了不同参数规模、上下文长度及注意力头配置的模型在性能、计算成本与内存消耗方面的表现。进而,我们扩展了仅基于参数规模与训练计算的现有缩放方法,以指导在训练与推理阶段构建成本最优的LLMs。我们的定量缩放研究表明,在处理足够长的序列时,拥有较少注意力头的更大模型能够实现更低的损失,同时带来更少的计算与内存开销。这些发现为开发实用的LLMs,尤其是在长上下文处理场景中,提供了宝贵的洞见。我们将公开代码与数据。
检索增强生成(RAG)作为大型语言模型(LLMs)的有效补充,却常忽视其流程中文本分块这一关键环节。本文首先提出了一种双指标评估方法,包含边界清晰度与分块粘性,旨在直接量化分块质量。借助这一评估手段,我们揭示了传统及语义分块在处理复杂上下文细微差别时的固有局限,从而证实了将LLMs融入分块过程的必要性。针对基于LLM方法在计算效率与分块精度之间固有的权衡问题,我们设计了粒度感知的混合分块器(MoC)框架,该框架包含一个三阶段处理机制。尤为重要的是,我们的目标是引导分块器生成一系列结构化的分块正则表达式,随后利用这些表达式从原始文本中提取分块。大量实验表明,我们提出的指标与MoC框架均有效解决了分块任务中的挑战,不仅揭示了分块的核心机制,还显著提升了RAG系统的性能。
预训练语言模型(PLMs)已彻底革新了科学研究,然而其在单细胞分析中的应用仍显局限。文本PLMs无法处理单细胞RNA测序数据,而细胞PLMs则缺乏处理自由文本的能力,这限制了它们在多模态任务中的使用。现有尝试融合这些模态的努力常面临信息丢失或单模态预训练不足的问题,导致性能欠佳。为应对这些挑战,我们提出了单细胞多模态生成预训练变换器(scMMGPT),一种用于联合细胞与文本建模的统一PLM。scMMGPT高效整合了最先进的细胞与文本PLMs,促进了跨模态知识共享,从而提升性能。为弥合文本与细胞模态间的鸿沟,scMMGPT采用了专门的跨模态投影器,并在2700万个细胞上进行了大规模预训练——这是迄今为止多模态细胞-文本PLMs使用的最大数据集。这一大规模预训练使scMMGPT在联合细胞-文本任务中表现卓越,在细胞描述生成的文本差异度上实现了84%的相对提升,细胞类型注释准确率提高了20.5%,在文本条件伪细胞生成的k近邻准确率上提升了4%,全面超越了基线模型。
长视频问答(VQA)面临的核心挑战在于从大量冗余帧中提取相关信息并建模长程依赖关系。自注意力机制为序列建模提供了通用解决方案,但在处理长视频中庞大的时空标记时,其计算成本令人望而却步。现有方法多依赖压缩策略以降低计算开销,如通过稀疏帧采样减少输入长度,或通过时空池化压缩传递给大语言模型(LLM)的输出序列。然而,这些简单方法过度表征冗余信息,常遗漏显著事件或快速变化的时空模式。本研究提出BIMBA,一种高效的状态空间模型,专为处理长视频设计。该模型利用选择性扫描算法,学习从高维视频中有效筛选关键信息,并将其转化为精简的标记序列,以便LLM高效处理。大量实验表明,BIMBA在多个长视频VQA基准测试中,包括PerceptionTest、NExT-QA、EgoSchema、VNBench、LongVideoBench及Video-MME,均达到了最先进的准确率。代码与模型已公开于https://sites.google.com/view/bimba-mllm。
随机采样一致性(RANSAC)是一种从含噪数据中稳健估计参数模型的基础方法。现有的基于学习的RANSAC方法利用深度学习来增强RANSAC对异常值的鲁棒性。然而,这些方法在训练和测试时使用的是由相同算法生成的数据,导致在推理时对分布外数据的泛化能力有限。因此,本文提出了一种新颖的基于扩散的范式,通过逐步向真实数据注入噪声,模拟训练基于学习的RANSAC时的噪声环境。为了增强数据多样性,我们将蒙特卡洛采样融入扩散范式,通过在多个阶段引入不同类型的随机性,近似多样化的数据分布。我们在ScanNet和MegaDepth数据集上通过特征匹配的全面实验评估了我们的方法。实验结果表明,我们的蒙特卡洛扩散机制显著提升了基于学习的RANSAC的泛化能力。我们还进行了广泛的消融研究,验证了框架中关键组件的有效性。
机器学习力场(MLFFs)作为一种替代昂贵的从头算量子力学分子模拟的方法,展现出巨大潜力。鉴于所关注化学空间的多样性及生成新数据的高昂成本,理解MLFFs如何在其训练分布之外实现泛化至关重要。为了刻画并深入理解MLFFs中的分布偏移现象,我们在化学数据集上开展了一系列诊断性实验,揭示了即便是基于海量数据训练的大型基础模型也面临显著挑战的常见偏移类型。基于这些观察,我们提出假设:当前的有监督训练方法未能充分正则化MLFFs,导致模型过拟合并学习到对分布外系统的不良表示。为此,我们提出了两种新方法,作为缓解MLFFs分布偏移的初步尝试。这些方法聚焦于测试时优化策略,旨在以最小的计算成本实现改进,且无需依赖昂贵的从头算参考标签。第一种策略基于谱图理论,通过调整测试图的边结构,使其与训练期间观察到的图结构对齐。第二种策略则利用辅助目标(如廉价的物理先验)在测试时采取梯度步骤,以提升对分布外系统的表示能力。我们的测试时优化策略显著降低了分布外系统的误差,表明MLFFs具备并有望向建模多样化化学空间迈进,但当前训练方式尚未有效引导其实现这一目标。实验结果为评估下一代MLFFs的泛化能力确立了明确的基准。相关代码已发布于https://tkreiman.github.io/projects/mlff_distribution_shifts/。