每日精选AI研究论文及翻译
自回归模型已成为视觉生成的强大方法,但由于其逐个令牌预测过程而导致推理速度缓慢。在本文中,我们提出了一种简单而有效的并行自回归视觉生成方法,提高了生成效率同时保留了自回归建模的优势。我们的关键见解是,并行生成取决于视觉令牌之间的依赖关系-具有弱依赖性的令牌可以并行生成,而强烈依赖的相邻令牌很难一起生成,因为它们的独立抽样可能导致不一致性。基于这一观察结果,我们开发了一种并行生成策略,可以并行生成具有弱依赖性的远程令牌,同时对于具有强依赖性的本地令牌保持顺序生成。我们的方法可以无缝集成到标准自回归模型中,无需修改架构或分词器。在ImageNet和UCF-101上的实验表明,我们的方法在图像和视频生成任务中实现了3.6倍的加速,质量相当,并且在最小质量降低的情况下最多可实现9.5倍的加速。我们希望这项工作能激发未来对高效视觉生成和统一自回归建模的研究。项目页面:https://epiphqny.github.io/PAR-project。
通过离线强化学习(RL)改进大型语言模型(LLMs)的多步推理能力对于快速适应复杂任务至关重要。虽然直接偏好优化(DPO)在将LLMs与人类偏好对齐方面表现出潜力,但对于多步推理任务来说不太合适,原因是:(1)DPO依赖于成对偏好数据,这对于多步推理任务并不readily可用,以及(2)它将所有token一视同仁,这使得在多步推理任务中进行信用分配变得低效,因为这类任务通常伴随着稀疏奖励。在这项工作中,我们提出了OREO(离线推理优化),这是一种用于增强LLM多步推理能力的离线RL方法。基于先前最大熵强化学习的工作见解,OREO通过优化软Bellman方程共同学习策略模型和值函数。我们原理上展示了它减少了收集成对数据的需求,并实现了更好的信用分配。在经验上,OREO在多步推理基准测试中表现优于现有的离线学习方法,包括数学推理任务(GSM8K,MATH)和具身体代理控制(ALFWorld)。该方法可以在额外资源可用时扩展为多次迭代框架。此外,学习到的值函数可以被利用来免费指导树搜索,这在测试时可以进一步提高性能。
扩散变压器(DiT)已成为图像生成中领先的架构。然而,注意力机制的二次复杂度,负责建模记号间关系,导致生成高分辨率图像时出现显著的延迟。为解决这一问题,本文旨在提出一种线性注意力机制,将预训练的DiT的复杂度降至线性。我们从现有高效注意力机制全面总结开始探索,并确定了实现预训练DiT线性化成功的四个关键因素:局部性、公式一致性、高秩注意力图和特征完整性。基于这些见解,我们引入了一种类似卷积的局部注意力策略,称为CLEAR,它将特征交互限制在每个查询记号周围的局部窗口,从而实现线性复杂度。我们的实验表明,通过仅在10K个自动生成的样本上对注意力层进行10K次迭代的微调,我们可以有效地将知识从预训练的DiT转移到具有线性复杂度的学生模型,产生与教师模型相媲美的结果。同时,它将注意力计算减少了99.5%,并加速了生成8K分辨率图像的速度6.3倍。此外,我们研究了精馏注意力层中的有利特性,如跨各种模型和插件的零次泛化以及改进了对多GPU并行推理的支持。模型和代码可在此处获得:https://github.com/Huage001/CLEAR。
对于长上下文生成,键-值(KV)缓存已成为LLM的瓶颈。尽管在这一领域进行了大量努力,但通常忽略了解码阶段的优化。然而,我们认为这种优化至关重要,特别是针对基于以下两点观察的长输出生成任务:(i)在预填充阶段过度压缩,需要特定完整上下文会损害推理任务的理解;(ii)在具有长输出的推理任务中,重要元素的偏差会发生。因此,引入了SCOPE,这是一个简单而高效的框架,可在预填充和解码阶段分别执行KV缓存优化。具体而言,在预填充阶段保留KV缓存以保留基本信息,而基于滑动的新策略被提出以选择解码阶段的重要元素。还使用自适应和不连续策略进一步优化了内存使用和内存传输。在LongGenBench上进行的大量实验显示了SCOPE的有效性和泛化能力,以及其作为其他仅预填充的KV压缩方法的插件的兼容性。
我们提出使用一种新颖的多模态联合训练框架 MMAudio,基于视频和可选文本条件来合成高质量且同步的音频。与仅基于(有限的)视频数据进行条件训练相比,MMAudio 与规模更大、易获得的文本-音频数据一起进行联合训练,以学习生成语义对齐的高质量音频样本。此外,我们通过一个条件同步模块改善音频-视觉同步性,该模块在帧级别将视频条件与音频潜变量进行对齐。通过流匹配目标进行训练,MMAudio 在音频质量、语义对齐和音频-视觉同步方面在公开模型中实现了新的视频到音频的最先进水平,同时具有较低的推理时间(生成 8 秒片段仅需 1.23 秒)和仅 157M 参数。MMAudio 在文本到音频生成方面也表现出惊人的竞争力,表明联合训练不会妨碍单模态性能。代码和演示请访问:https://hkchengrex.github.io/MMAudio
多模态大型语言模型(MLLMs)擅长生成高度详细的标题,但往往会产生幻觉。我们的分析揭示了现有的幻觉检测方法在处理详细标题时存在困难。我们将这归因于随着序列长度增长,MLLMs越来越依赖于它们生成的文本,而不是输入图像。为了解决这个问题,我们提出了一种多代理方法,利用LLM-MLLM协作来纠正给定的标题。此外,我们引入了一个评估框架和一个基准数据集,以促进对详细标题的系统分析。我们的实验证明,我们提出的评估方法与人类对事实的判断更加吻合,而现有的度量标准以及改善MLLM事实性的方法可能在超详细图像标题任务中表现不佳。相比之下,我们提出的方法显著提高了标题的事实准确性,甚至改善了由GPT-4V生成的标题。最后,我们通过展示MLLM在VQA基准测试上的表现可能与其生成详细图像标题的能力不相关,突出了以VQA为中心的基准测试的局限性。
量化已成为将LLM压缩为更小尺寸的最有效方法之一。然而,现有的量化解决方案仍然存在明显的准确性下降或系统效率低下的局限性。本文全面分析了一般量化原则对准确性、内存消耗和系统效率三角关系的影响。我们提出了MixLLM,探索了基于新视角的混合精度量化优化空间,根据不同输出特征在模型中的重要性不同这一洞察。MixLLM在全局视角下识别具有高显著性的输出特征,而不是在每个单独层内部,有效地为最需要的输出特征分配更大的位宽,以实现在低内存消耗下获得良好准确性。我们提出了算法-系统协同设计的量化配置的最佳点,以实现高准确性和系统效率。为解决系统挑战,我们设计了两步去量化,以便轻松利用int8 Tensor Core和快速数据类型转换,从而显著减少去量化开销,并提出了软件流水线以最佳方式重叠内存访问、去量化和矩阵乘法。大量实验证明,仅增加10%的位数,PPL增长可以从SOTA的约0.5减少到Llama 3.1 70B的0.2以内,而MMLU-Pro平均提高了0.93,超过了三个流行模型的SOTA。除了其卓越的准确性外,MixLLM还实现了最先进的系统效率。
我们提出了一种用于视频建模的新型模块。它依赖于时间-空间-通道分解,针对每个维度都有专用模块:门控线性循环单元(LRUs)在时间上执行信息混合,自注意力层在空间上执行混合,MLPs在通道上执行操作。由此产生的架构TRecViT在稀疏和密集任务上表现良好,可以在监督或自监督模式下训练。值得注意的是,我们的模型是因果的,在大规模视频数据集(SSv2、Kinetics400)上表现优异,优于或与纯注意力模型ViViT-L相当,同时参数数量少3倍,内存占用小12倍,FLOPs计数低5倍。代码和检查点将在以下网址上提供:https://github.com/google-deepmind/trecvit。
3D超分辨率旨在从低分辨率(LR)多视图图像中重建高保真度的3D模型。早期研究主要集中在单图像超分辨率(SISR)模型上,将LR图像上采样为高分辨率图像。然而,这些方法通常缺乏视角一致性,因为它们独立地处理每个图像。尽管已广泛探讨了各种后处理技术来减轻这些不一致性,但它们尚未完全解决问题。在本文中,我们通过利用视频超分辨率(VSR)模型,对3D超分辨率进行了全面研究。通过利用VSR模型,我们确保了更高程度的空间一致性,并可以参考周围的空间信息,从而实现更准确和详细的重建。我们的研究结果表明,即使在缺乏精确空间对齐的序列上,VSR模型也能表现出色。基于这一观察,我们提出了一种简单而实用的方法,用于对齐LR图像,而无需进行微调或从训练好的3D模型在LR图像上生成“平滑”轨迹。实验结果表明,这些令人惊讶的简单算法能够在标准基准数据集(如NeRF-synthetic和MipNeRF-360数据集)上实现3D超分辨率任务的最新成果。项目页面:https://ko-lani.github.io/Sequence-Matters
在这项工作中,我们提出了一个多LLM摘要框架,并研究了两种不同的多LLM策略,包括集中式和分散式。我们的多LLM摘要框架在每一轮对话中有两个基本重要的步骤:生成和评估。这些步骤根据我们使用的多LLM分散式或集中式摘要方法而有所不同。在我们的多LLM分散式和集中式策略中,我们有k个不同的LLM来生成文本的多样摘要。然而,在评估过程中,我们的多LLM集中式摘要方法利用单个LLM来评估摘要并选择最佳摘要,而在分散式多LLM摘要中使用k个LLM。总体而言,我们发现我们的多LLM摘要方法明显优于仅利用单个LLM的基准线,性能提高了最多3倍。这些结果表明了多LLM摘要方法的有效性。
从单个图像创建高保真、可动画的3D全身化身是一项具有挑战性的任务,这是因为人类的外观和姿势多种多样,而高质量训练数据的可用性有限。为了实现快速且高质量的人类重建,本研究从数据集、模型和表示的角度重新思考了这一任务。首先,我们引入了一个大规模的以人为中心生成数据集,名为HuGe100K,包含了10万个多样化、逼真的人类图像集。每个集合包含特定人类姿势的24个视角帧,使用可控姿势的图像到多视角模型生成。接下来,利用HuGe100K中的视角、姿势和外观的多样性,我们开发了一个可扩展的前馈变换器模型,从给定的人类图像中预测出在统一空间中的3D人类高斯表示。该模型经过训练,可以将人类姿势、身体形状、服装几何和纹理进行解耦。估计出的高斯可以在无需后处理的情况下进行动画化。我们进行了全面的实验来验证所提出的数据集和方法的有效性。我们的模型展示了在单个GPU上即时从单个输入图像高效重建出1K分辨率逼真人类的能力。此外,它无缝支持各种应用,以及形状和纹理编辑任务。
本文介绍了 Fietje,一系列专为荷兰语设计的小语言模型(SLMs)。该模型基于 Phi 2,一个参数为 27 亿的以英语为中心的模型。Fietje 在发布时展示了与更大语言模型竞争力的结果。本文的核心重点是透明度和可复现性:Fietje 是完全开源的,模型权重、数据集、训练和评估代码都可以公开获取。 本文讨论了 Fietje 和许多其他模型在推理、情感分析、世界知识、语言可接受性和词义消歧等广泛评估基准上的表现。评估结果展示了在LLMs领域的快速进展,最近的小模型胜过了为荷兰语进行微调的旧的更大模型。这一趋势预示着荷兰语处理领域的光明未来,表明即使是紧凑的LLMs也变得越来越有能力。 此外,将LLMs调整为荷兰语的持续和未来努力将进一步增强这些模型,拓宽它们的适用性和可访问性。Fietje 只是改进荷兰语言技术对用户可访问性的中间步骤。
在跨多种语言构建安全的大型语言模型(LLMs)对于确保安全访问和语言多样性至关重要。为此,我们引入了M-ALERT,这是一个多语言基准,评估五种语言(英语、法语、德语、意大利语和西班牙语)中LLMs的安全性。M-ALERT包括每种语言15k个高质量提示,总计75k个,遵循详细的ALERT分类法。我们对10个最先进的LLMs进行了广泛实验,突显了语言特定安全性分析的重要性,揭示了模型在不同语言和类别中往往存在显著的安全性不一致性。例如,Llama3.2在意大利语的crime_tax类别中表现出高度的不安全性,但在其他语言中保持安全。类似的差异可以在所有模型中观察到。相反,某些类别,如substance_cannabis和crime_propaganda,在所有模型和语言中一致地触发不安全的响应。这些发现强调了在LLMs中需要强大的多语言安全实践,以确保在不同用户群体中的安全和负责任的使用。