每日精选AI研究论文及翻译
生成式大型语言模型(LLMs)已经开辟了许多新的可能性,但由于其巨大的计算需求,它们的普遍应用仍然具有挑战性。一些最有用的应用需要一次处理大量样本并使用长上下文,这两者都显著增加了模型的内存通信负载。我们引入了SparQ注意力,这是一种通过选择性提取缓存历史来减少注意力块内存带宽需求的技术,从而提高LLMs的推理吞吐量。我们提出的技术可以直接应用于推理过程中的现成LLMs,无需修改预训练设置或进行额外微调。我们展示了如何通过在广泛的下游任务上评估Llama 2和Pythia模型,SparQ注意力可以将注意力内存带宽需求降低多达八倍,而不会损失准确性。
本文介绍了DreaMoving,这是一个基于扩散的可控视频生成框架,用于生成高质量定制的人类舞蹈视频。具体来说,给定目标身份和姿势序列,DreaMoving能够生成一个目标身份在任何地方跳舞的视频,由姿势序列驱动。为此,我们提出了一个视频控制网络(Video ControlNet)用于运动控制,以及一个内容引导器(Content Guider)用于保持身份。所提出的模型易于使用,并可适应大多数风格化扩散模型,以生成多样化的结果。项目页面可在https://dreamoving.github.io/dreamoving找到。
大多数3D生成研究侧重于将2D基础模型向上投影到3D空间,要么通过最小化2D得分蒸馏采样(SDS)损失,要么在多视角数据集上进行微调。在没有明确的3D先验知识的情况下,这些方法通常会导致几何异常和多视角不一致性。最近,研究人员尝试通过直接在3D数据集上进行训练来提高3D物体的真实性,尽管由于3D数据集中纹理多样性有限,这会导致纹理生成质量较低。为了充分利用这两种方法的优势,我们提出了双向扩散(BiDiff),这是一个统一的框架,结合了3D和2D扩散过程,分别保留了3D的保真度和2D的纹理丰富性。此外,由于简单的组合可能会产生不一致的生成结果,我们进一步通过新颖的双向引导来连接它们。此外,我们的方法可以用作基于优化的模型的初始化,进一步提高3D模型的质量和优化效率,将生成过程从3.4小时减少到20分钟。实验结果表明,我们的模型实现了高质量、多样化和可扩展的3D生成。项目网站:https://bidiff.github.io/。
我们提出了一种方法,用于增强文本到视频生成模型的自定义动作,扩展其能力以超越原始训练数据中描绘的动作。通过利用几个展示特定动作的视频样本作为输入,我们的方法学习并推广输入动作模式,以适用于多样的、文本指定的场景。我们的贡献有三个方面。首先,为了实现我们的结果,我们微调现有的文本到视频模型,学习在输入示例中描绘的动作与新的唯一标记之间的新映射。为了避免过度拟合到新的自定义动作,我们引入了一种对视频进行正则化的方法。其次,通过利用预训练模型中的动作先验,我们的方法可以生成展示多人进行自定义动作的新视频,并可以将该动作与其他动作结合起来。此外,我们的方法扩展到了个性化主体的动作和外观的多模态定制,实现了生成展示独特角色和不同动作的视频。第三,为了验证我们的方法,我们提出了一种定量评估学习到的自定义动作并进行系统的消融研究的方法。我们展示了,当扩展到动作定制任务时,我们的方法在外观为基础的定制方法方面表现显著优于先前的方法。
随着大型语言模型的最新进展,诸如思维链提示等方法已被证明可以改善推理任务的结果。然而,需要多步推理的任务仍然对最先进的模型构成重大挑战。受波束搜索算法启发,我们提出了PathFinder,一种基于树搜索的推理路径生成方法。通过整合动态解码,利用不同的采样方法和参数实现了多样的分支和多跳推理。利用约束推理,PathFinder整合了新颖的质量约束、修剪和探索方法,以提高生成的效率和质量。此外,它包括评分和排名特性以改善候选选择。我们的方法在三个复杂的算术和常识推理任务上平均优于竞争基线6%。我们的模型对于更长、未知的推理链具有很好的泛化能力,反映出与大分支因子的波束搜索类似的复杂性。
去噪扩散模型在二维图像生成方面展现出了出色的结果,然而在三维形状生成方面复制其成功仍然是一个挑战。本文提出利用多视角深度,将复杂的三维形状表示为易于去噪的二维数据格式。我们将这种表示与一种名为MVDD的扩散模型相结合,该模型能够生成具有精细细节的20K+点的高质量密集点云。为了在多视角深度中强化三维一致性,我们引入了一个对视图的去噪步骤进行条件化的极线段注意力,使其考虑相邻视图。此外,还在扩散步骤中加入了深度融合模块,进一步确保深度图的对齐。当结合表面重建时,MVDD还能够生成高质量的三维网格。此外,MVDD在深度完成等其他任务中表现突出,并可作为三维先验,显著提升许多下游任务,如GAN反演。通过大量实验得出的最新结果表明,MVDD在三维形状生成、深度完成方面具有出色的能力,以及作为下游任务的三维先验的潜力。
我们提出了EE-LLM,这是一个用于大规模训练和推断的早期退出大型语言模型(LLMs)的框架。尽管最近的研究已经展示了早期退出在加速LLM推断方面的有效性的初步证据,但EE-LLM迈出了一个基础性的步骤,通过支持使用大规模3D并行性进行早期退出LLMs的训练和推断。基于Megatron-LM构建的EE-LLM实现了各种算法创新和性能优化,专门针对早期退出进行了定制,包括一种轻量级方法,利用流水线并行性促进早期退出训练目标的反向传播,利用原始流水线调度中的空闲资源进行与早期退出层相关的计算的技术,以及两种与KV缓存兼容的早期退出推断方法,用于自回归生成。我们的分析和实证研究表明,与标准LLM训练相比,EE-LLM实现了出色的训练效率,几乎没有计算开销,并且在不影响输出质量的情况下实现了出色的推断加速。为了促进进一步的研究和采用,我们在https://github.com/pan-x-c/EE-LLM上发布了EE-LLM。
视觉语言(VL)模型遵循指令提供了一种灵活的接口,支持以零样本方式进行广泛的多模态任务。然而,基于完整图像操作的接口并不能直接让用户“指向”并访问图像中的特定区域。这种能力不仅对支持基于参考的VL基准测试至关重要,而且对于需要精确图像内推理的实际应用也是必要的。我们构建了定位视觉常识模型,允许用户指定(多个)区域作为输入。我们通过从大型语言模型(LLM)中采样局部常识知识来训练我们的模型:具体而言,我们提示LLM根据全局文字图像描述和由一组VL模型自动生成的局部文字区域描述收集常识知识。通过一个单独训练的评论者模型选择高质量示例,我们发现在局部常识语料库上训练可以成功地提炼现有的VL模型,以支持以参考为输入的接口。零样本设置中的实证结果和人类评估表明,我们的提炼方法导致比将生成的指称表达式传递给LLM的基准更精确的推理VL模型。