每日精选AI研究论文及翻译
尽管视觉-语言-动作(VLA)模型在各种机器人任务上取得了最新进展,但由于完全依赖于成功执行的行为克隆,它们存在一些关键问题,如泛化能力差,无法适应未见过的任务。此外,它们通常被微调以复制专家在不同环境下收集的演示,从而引入分布偏差,限制了其适应多样化操作目标(如效率、安全性和任务完成能力)。为了弥合这一差距,我们引入了GRAPE:通过偏好对齐来泛化机器人策略。具体而言,GRAPE在轨迹级别上对齐VLA,并隐式地对成功和失败试验中的奖励进行建模,以增强对多样化任务的泛化能力。此外,GRAPE将复杂的操作任务分解为独立阶段,并通过大型视觉-语言模型提出的关键点自动引导偏好建模的定制时空约束。值得注意的是,这些约束是灵活的,可以根据不同目标(如安全性、效率或任务成功)进行定制对齐模型。我们在真实环境和模拟环境中对GRAPE进行了各种任务的评估。实验结果表明,GRAPE提升了最先进的VLA模型的性能,在领域内和未见过的操作任务上,成功率分别提高了51.79%和60.36%。此外,GRAPE可以与各种目标对齐,如安全性和效率,将碰撞率降低了44.31%,将执行步长缩短了11.15%。所有代码、模型和数据均可在https://grape-vla.github.io/ 上获得。
视频深度估计通过推断每一帧的密集深度,将单目视频剪辑提升到3D。最近单图深度估计的进展,由大型基础模型的兴起和合成训练数据的使用带来,引发了对视频深度的重新关注。然而,简单地将单图深度估计器应用于视频的每一帧会忽略时间连续性,不仅会导致闪烁,还可能在摄像机运动引起深度范围突变时出现问题。一个明显且合理的解决方案是基于视频基础模型构建,但这些模型也存在各自的局限性;包括昂贵的训练和推断、不完美的3D一致性,以及针对固定长度(短)输出的拼接例程。我们退一步,展示如何将单图潜扩散模型(LDM)转化为一流的视频深度估计器。我们的模型名为RollingDepth,主要包括两个要素:(i)源自单图LDM的多帧深度估计器,将非常短的视频片段(通常是帧三元组)映射到深度片段。 (ii)一个稳健的、基于优化的配准算法,将以不同帧率采样的深度片段最佳地组装回一致的视频。RollingDepth能够高效处理数百帧的长视频,并提供比专用视频深度估计器和性能优越的单帧模型更准确的深度视频。项目页面:rollingdepth.github.io。
在上下文学习(ICL)中,大型语言模型(LLMs)通过复杂的提示和高质量的示范来处理下游任务。然而,传统的ICL范式在面对复杂的数学推理任务时存在局限性,主要是由于其对示例质量的严重依赖以及在挑战性场景中需要人类干预。为了解决这些限制,本文提出了HiAR-ICL,一种基于高级自动推理范式的ICL,将重点从具体示例转移到抽象思维模式,扩展了ICL中上下文概念的传统概念。HiAR-ICL引入了五种原子推理动作作为构建链式模式的基本组成部分。利用蒙特卡洛树搜索,我们探索推理路径并构建思维卡,以指导后续推理。然后,我们开发了一个动态匹配问题与适当思维卡的认知复杂性框架。实验结果表明HiAR-ICL的有效性,在MATH基准测试中使用Qwen2.5-7B-Instruct取得了最先进的准确率(79.6%),超过了GPT-4o(76.6%)和Claude 3.5(71.1%)。
近年来,通用多模态大型语言模型(MLLMs)的快速发展备受关注。然而,将通用MLLMs调整到特定领域,如科学领域和工业应用,仍未得到充分探索。本文系统地研究了通过后期训练进行MLLMs领域自适应的方法,重点关注数据合成、训练流程和任务评估。(1)数据合成:利用开源模型,我们开发了一个视觉指导合成器,有效地从领域特定的图像说明对生成多样化的视觉指导任务。我们的合成任务在增强MLLMs的领域特定性能方面超越了通过手动规则、GPT-4和GPT-4V生成的任务。(2)训练流程:尽管通常采用两阶段训练——首先是图像说明对,然后是视觉指导任务——来开发通用MLLMs,我们应用单阶段训练流程来增强领域特定后期训练的任务多样性。(3)任务评估:我们在生物医学和食品两个领域进行实验,通过对不同来源和规模的MLLMs(例如Qwen2-VL-2B,LLaVA-v1.6-8B,Llama-3.2-11B)进行后期训练,然后评估MLLM在各种领域特定任务上的性能。为支持MLLM领域自适应的进一步研究,我们将开源我们的实现。
本技术报告介绍了我们最新的旗舰大型语言模型(LLM)Yi-Lightning。它在Chatbot Arena上取得了卓越的表现,在整体排名中名列第6,特别在包括中文、数学、编码和难题等专业类别中表现强劲(第2至第4名)。Yi-Lightning利用增强的专家混合(MoE)架构,具有先进的专家分段和路由机制,结合优化的KV缓存技术。我们的开发过程涵盖了全面的预训练、监督微调(SFT)和从人类反馈中进行强化学习(RLHF),我们制定了多阶段训练、合成数据构建和奖励建模的策略。此外,我们实施了RAISE(负责任AI安全引擎),这是一个由四个组件组成的框架,用于解决在预训练、后训练和服务阶段的安全问题。在我们可扩展的超级计算基础设施的支持下,所有这些创新大大降低了训练、部署和推断成本,同时保持了高性能标准。通过进一步评估公共学术基准测试,Yi-Lightning展示了与顶尖LLM竞争的性能,与此同时,我们观察到传统静态基准测试结果与现实动态人类偏好之间存在显著差异。这一观察促使对传统基准测试在引导开发更智能、更强大的AI系统应用方面的实用性进行重要重新评估。Yi-Lightning现已通过我们的开发者平台https://platform.lingyiwanwu.com提供。
扩散模型已成为生成高质量图像、视频和3D内容的强大工具。虽然像CFG这样的采样引导技术可以提高质量,但会降低多样性和运动性。自动引导可以缓解这些问题,但需要额外的弱模型训练,限制了其在大规模模型中的实用性。在这项工作中,我们引入了时空跳跃引导(STG),这是一种简单的无需训练的采样引导方法,用于增强基于Transformer的视频扩散模型。STG利用自我扰动实现了隐式的弱模型,避免了对外部模型或额外训练的需求。通过有选择地跳过时空层,STG生成了原始模型的对齐、降级版本,以提高样本质量,同时不影响多样性或动态程度。我们的贡献包括:(1)将STG作为视频扩散模型的高效、高性能引导技术引入;(2)通过层跳跃模拟弱模型,消除了辅助模型的需求;(3)确保增强质量的引导,同时不影响样本的多样性或动态,与CFG不同。欲了解更多结果,请访问https://junhahyung.github.io/STGuidance。
反向思维在人类推理中发挥着至关重要的作用。人类不仅可以从问题推导出解决方案,还可以反其道而行之,即从解决方案出发逆向推理至问题。这通常会增强整体推理性能,因为它可以在正向和反向思维之间进行一致性检查。为了使大型语言模型(LLMs)能够进行反向思维,我们引入了一种名为Reverse-Enhanced Thinking(RevThink)的框架,由数据增强和学习目标组成。在RevThink中,我们通过从教师模型收集结构化的正向-反向推理来增强数据集,其中包括:(1)原始问题,(2)正向推理,(3)反向问题和(4)反向推理。然后,我们采用三个目标以多任务学习的方式训练一个较小的学生模型:(a)从问题生成正向推理,(b)从问题生成反向问题,以及(c)从反向问题生成反向推理。在涵盖常识、数学和逻辑推理的12个数据集上进行的实验表明,相较于学生模型的零-shot表现,我们的方法平均提高了13.53%,比最强的知识蒸馏基线提高了6.84%。此外,我们的方法表现出样本效率 - 仅利用训练数据中正确正向推理的10%,就能胜过在10倍更多正向推理上训练的标准微调方法。RevThink还展现出对分布之外的保留数据集的强大泛化能力。
作为视频生成的基本支柱,扩散模型由于去噪的顺序性质而面临推理速度较慢的挑战。先前的方法通过缓存和重复使用在均匀选择的时间步长上的模型输出来加快模型的速度。然而,这种策略忽视了模型输出在不同时间步长上的差异并非均匀的事实,这妨碍了选择适当的模型输出进行缓存,导致推理效率和视觉质量之间的平衡不佳。在本研究中,我们引入了“时间步嵌入感知缓存”(TeaCache),这是一种无需训练的缓存方法,它估计并利用了不同时间步长上模型输出之间波动的差异。TeaCache不直接使用耗时的模型输出,而是专注于具有与模型输出强相关性的模型输入,而且计算成本微乎其微。TeaCache首先使用时间步嵌入调节嘈杂的输入,以确保它们的差异更好地逼近模型输出的差异。然后,TeaCache引入了一种重新缩放策略来改进估计的差异,并利用它们指示输出缓存。实验证明,TeaCache相比于Open-Sora-Plan实现了高达4.41倍的加速,而视觉质量几乎没有降低(-0.07%的Vbench分数)。
大型语言模型(LLMs)展示了卓越的能力,但在推理过程中高计算成本限制了它们的采用。增加参数数量可以提高准确性,但也加大了最先进能力与实际部署能力之间的差距。我们提出了Puzzle,一个加速在特定硬件上进行LLM推理的框架,同时保留它们的能力。通过在前所未有的规模上创新地应用神经架构搜索(NAS),Puzzle系统地优化了在硬件约束下具有数百亿参数的模型。我们的方法利用分块局部知识蒸馏(BLD)进行并行架构探索,并采用混合整数规划进行精确的约束优化。 我们通过Llama-3.1-Nemotron-51B-Instruct(Nemotron-51B)展示了我们框架的实际影响,这是从Llama-3.1-70B-Instruct衍生出的一个公开可用模型。Nemotron-51B实现了2.17倍的推理吞吐量加速,在单个NVIDIA H100 GPU上运行,同时保留了原模型98.4%的能力。Nemotron-51B目前是最准确的语言模型之一,能够在单个GPU上进行推理,且具有大批量大小。值得注意的是,这种转变仅需要45B的训练标记,而70B模型需要超过15T的标记。这确立了一个新的范式,即强大的模型可以被优化以实现高效部署,而几乎不会牺牲其能力,这表明推理性能,而不仅仅是参数数量,应该指导模型选择。随着Nemotron-51B的发布和Puzzle框架的展示,我们为从业者提供了立即访问最先进语言建模能力的机会,而计算成本大大降低。
扩散模型擅长生成高质量图像。然而,它们只在训练时使用的分辨率下运行时才有效。在缩放分辨率下进行推断会导致重复模式和结构失真。在更高分辨率下重新训练很快变得不可行。因此,使现有扩散模型能够在灵活的测试时分辨率下运行的方法是非常可取的。先前的研究存在频繁的伪影,并且通常引入大量的延迟开销。我们提出了两个简单的模块来解决这些问题。我们引入了一个利用傅立叶域改善全局结构一致性的频率调制(FM)模块,以及一个改善局部纹理模式一致性的注意力调制(AM)模块,这在先前的研究中很大程度上被忽略。我们的方法,命名为Fam扩散,可以无缝集成到任何潜在扩散模型中,并且无需额外训练。大量的定性结果突显了我们的方法在解决结构和局部伪影方面的有效性,而定量结果显示出最先进的性能。此外,我们的方法避免了为了改善一致性而采用的冗余推断技巧,如基于补丁或渐进式生成,从而导致可忽略的延迟开销。
利用神经音频编解码模型对语音进行标记化是现代人工智能流水线中生成或理解语音的关键部分,无论是单独进行还是在多模态环境中。传统上,这种标记化模型专注于使用仅具有强归纳偏差的低参数计数架构。在这项工作中,我们展示通过将具有大参数计数的Transformer架构扩展到这个问题,并应用基于灵活的有限标量量化(FSQ)的瓶颈,可以在极低的比特率(每秒400或700比特)下实现最先进的语音质量。经过训练的模型在客观和主观测试中明显优于现有基准。
最近视频生成领域的重大进展在很大程度上受到视频扩散模型的推动,摄像机运动控制作为创建定制视觉内容的关键挑战日益突出。本文介绍了轨迹注意力,这是一种新颖方法,通过沿着可用像素轨迹执行注意力,实现精细的摄像机运动控制。与现有方法经常产生不精确输出或忽视时间相关性的情况不同,我们的方法具有更强的归纳偏差,可以无缝地将轨迹信息注入视频生成过程中。重要的是,我们的方法将轨迹注意力建模为一个辅助分支,与传统的时间注意力并驾齐驱。这种设计使原始的时间注意力和轨迹注意力能够协同工作,确保精确的运动控制和新内容生成能力,这在轨迹仅部分可用时至关重要。对图像和视频的摄像机运动控制实验表明,在保持高质量生成的同时,精度和长距离一致性均有显著改善。此外,我们展示了我们的方法可以扩展到其他视频运动控制任务,如以第一帧为导向的视频编辑,在这些任务中,我们的方法在保持大范围空间和时间一致性方面表现出色。
随着视频数据规模和复杂性的增长,有效处理长视频序列面临着重大挑战,因为现有基于Transformer的大型多模态模型(LMMs)带来的内存和计算需求呈二次增长。为解决这些问题,我们引入了Video-Ma^2mba,这是一种新颖的架构,它在Mamba-2框架中集成了状态空间模型(SSMs),取代了注意力机制。这使得LMMs在时间和内存需求方面呈线性扩展,从而使其能够处理长时间视频内容。此外,我们通过引入多轴梯度检查点(MA-GC)方法来增强内存效率,该方法通过在多个计算轴上仅保留必要的激活来策略性地管理内存。与标准梯度检查点相比,我们的方法显著减少了内存占用。实证分析表明,Video-Ma^2mba能够在单个GPU上处理大量视频序列,相当于数百万个标记或超过两小时的连续序列,帧率为1 FPS。通过保持对时间动态的详细捕获,我们的模型提高了长视频理解任务中响应的准确性和相关性,展示了与现有框架相比的显著优势。
人类运动,作为一种固有的连续动态过程,对生成模型提出了重大挑战。尽管离散量化方法如VQ-VAEs在领域中占主导地位,但存在固有局限,包括表达能力受限和逐帧噪声伪影。连续方法虽然能够产生更加平滑和自然的运动,但往往因高维复杂性和有限训练数据而表现不佳。为了解决离散和连续表示之间的“不协调”,我们引入了DisCoRD:通过修正流解码将离散运动令牌转换为连续运动的新方法。通过在连续空间中采用迭代细化过程,DisCoRD捕捉了细粒度动态并确保更加平滑和自然的运动。我们的方法与任何基于离散的框架兼容,增强了自然性,同时不影响对条件信号的忠实性。广泛的评估表明,DisCoRD在HumanML3D上的FID为0.032,在KIT-ML上为0.169,实现了最先进的性能。这些结果巩固了DisCoRD作为弥合离散效率和连续逼真性差距的强大解决方案。我们的项目页面链接为:https://whwjdqls.github.io/discord.github.io/。
随着工具增强型语言代理的出现,数学推理能力正在增强,但方法往往依赖闭源或大型模型、外部数据或大量提示工程。本研究介绍了MATATA,这是一种新颖且具有成本效益的方法,用于通过推理、规划和工具使用来训练LLM代理解决表格数据问题。采用渐进式自我改进范式和迭代式弱监督,赋予了38亿/80亿小语言模型(SLMs)强大的能力,特别适用于数据隐私至关重要的本地托管和敏感商业环境。通过在不同数据集上采用灵活且可重用的工具,实现了在共享任务中有效扩展性的稳健性能。实验表明,MATATA在基于开源模型的推理框架中在FinQA和TAT-QA上达到了最先进的性能。此外,MATATA模型在TabMWP上与基于GPT-4的框架竞争,同时仍然是SLMs。
最近许多研究已将3D摄像头控制整合到基础文本到视频模型中,但由此产生的摄像头控制通常不够精确,导致视频生成质量下降。在本研究中,我们从第一原理的角度分析摄像头运动,揭示见解,实现精确的3D摄像头操作而不影响合成质量。首先,我们确定视频中由摄像头运动引起的运动是低频的。这激励我们调整训练和测试姿势调节时间表,加快训练收敛速度,同时提高视觉和运动质量。然后,通过探究无条件视频扩散变压器的表示,我们观察到它们在幕后隐式执行摄像头姿势估计,只有部分层包含摄像头信息。这启发我们将摄像头调节的注入限制在架构的子集中,以防止干扰其他视频特征,从而减少了4倍的训练参数,提高了训练速度和10%的视觉质量。最后,我们通过一个精心策划的包含2万个不同动态视频和静止摄像头的数据集,补充了摄像头控制学习的典型数据集。这有助于模型区分摄像头和场景运动的差异,改善生成的姿势调节视频的动态性。我们综合这些发现,设计了先进的3D摄像头控制(AC3D)架构,这是具有摄像头控制的生成式视频建模的最新技术模型。
我们介绍了AlphaTablets,这是一种新颖且通用的3D平面表示,具有连续的3D表面和精确的边界划分。通过将3D平面表示为带有alpha通道的矩形,AlphaTablets结合了当前2D和3D平面表示的优势,实现了对3D平面的准确、一致和灵活建模。我们在AlphaTablets之上推导出可微的光栅化,以便将3D平面高效渲染成图像,并提出了一种新颖的自底向上管道,用于从单眼视频中重建3D平面。从2D超像素和来自预训练模型的几何线索开始,我们将3D平面初始化为AlphaTablets,并通过可微渲染对其进行优化。引入了一种有效的合并方案,以促进AlphaTablets的增长和细化。通过迭代优化和合并,我们重建了具有坚固表面和清晰边界的完整准确的3D平面。在ScanNet数据集上进行的大量实验表明,在3D平面重建方面表现出最先进的性能,突显了AlphaTablets作为各种应用的通用3D平面表示具有巨大潜力。项目页面位于:https://hyzcluster.github.io/alphatablets
训练大型神经网络通常需要通过专门的高速互连在加速器之间共享梯度。借鉴信号处理原理中的频率分解和能量压缩,我们展示了在训练过程中同步完整的优化器状态和模型参数是不必要的。通过解耦动量更新,并允许加速器之间优化器状态的受控分歧,我们实现了比最先进的优化器更好的收敛性。我们引入了{解耦}动量(DeMo),这是一个融合了优化器和数据并行算法,可以将加速器之间的通信需求降低数个数量级。这使得即使在网络带宽有限和硬件异构的情况下,也能训练大型神经网络。我们的方法与拓扑无关、与架构无关,并支持可扩展的时钟同步分布式训练,计算和内存开销可以忽略不计。实证结果表明,使用DeMo训练的模型在性能上与使用AdamW训练的等效模型相匹敌甚至超越,同时在预训练大规模基础模型时无需高速互连。我们在GitHub上发布了开源的基于PyTorch的参考实现,网址为https://github.com/bloc97/DeMo。
随着在线新闻报道数量不断增加,无论其所用语言如何,将其按主题分类对增强读者获取相关内容的能力至关重要。为解决这一挑战,我们提出了基于大型语言模型(LLMs)的教师-学生框架,用于开发合理规模的多语言新闻分类模型,无需手动数据标注。该框架采用生成式预训练变换器(GPT)模型作为教师模型,通过自动注释斯洛文尼亚语、克罗地亚语、希腊语和加泰罗尼亚语的新闻文章,开发了一个IPTC媒体主题训练数据集。教师模型在所有四种语言上展现出高零样本性能。其与人类标注者的一致性与人类标注者之间的一致性相当。为了缓解每天处理数百万文本所带来的计算限制,较小的类似BERT的学生模型在GPT注释的数据集上进行微调。这些学生模型实现了与教师模型相当的高性能。此外,我们探讨了训练数据规模对学生模型性能的影响,并研究了它们的单语、多语和零样本跨语言能力。研究结果表明,学生模型可以在相对较少的训练实例下实现高性能,并展现出强大的零样本跨语言能力。最后,我们发布了表现最佳的新闻主题分类器,实现了具有IPTC媒体主题模式顶层类别的多语言分类。
最近的研究表明扩散模型可以作为强大的神经渲染引擎,可用于将虚拟对象插入图像中。然而,与典型基于物理的渲染器不同,神经渲染引擎受到对光照设置的手动控制能力的限制,而这通常对改善或个性化所需的图像结果至关重要。在本文中,我们展示了通过简单指定对象的期望阴影,可以实现对对象重新照明的精确控制。令人惊讶的是,我们表明仅将对象的阴影注入预先训练的基于扩散的神经渲染器,即可使其根据期望的光源位置准确着色对象,并在目标背景图像中正确协调对象(及其阴影)。我们的方法SpotLight 利用现有的神经渲染方法,实现了可控的重新照明结果,无需额外训练。具体来说,我们展示了它在最近文献中的两个神经渲染器上的应用。我们展示了SpotLight 在对象合成结果方面取得了优越的成果,无论是在数量上还是在感知上,都得到了用户研究的确认,胜过了专门设计用于重新照明的现有扩散模型。
在本研究中,我们提出了用于视觉Transformer的训练噪声标记(TNT)剪枝方法。我们的方法将离散标记丢弃条件放宽为连续的加性噪声,在训练中提供平滑优化,同时在部署设置中保留离散丢弃的计算优势。我们提供了与速率失真文献的理论联系,并在ImageNet数据集上使用ViT和DeiT架构进行了实证评估,展示了TNT相对于先前剪枝方法的优势。