每日精选AI研究论文及翻译
一致性模型(CM)最近在加速扩散模型生成方面取得了显著进展。然而,其在潜在空间中进行高分辨率、文本条件图像生成(即LCM)的应用仍然不尽人意。本文识别了LCM当前设计中的三个关键缺陷。我们调查了这些限制背后的原因,并提出了阶段一致性模型(PCM),它泛化了设计空间并解决了所有已识别的限制。我们的评估表明,在1-16步生成设置中,PCM明显优于LCM。虽然PCM专为多步细化而设计,但其在1步生成结果方面甚至优于或与先前最先进的专门设计的1步方法相媲美。此外,我们展示了PCM的方法论是多才多艺的,并且适用于视频生成,使我们能够训练最先进的少步文本到视频生成器。更多详细信息请访问https://g-u-n.github.io/projects/pcm/。
随着深度神经网络(DNNs)规模和复杂性的增长,通常超出单个加速器的内存容量,需要将模型参数分片到多个加速器上。流水线并行是训练大型DNNs常用的分片策略。然而,当前流水线并行的实现不经意间受到ML框架提供的自动微分工具的瓶颈限制。本文介绍了2阶段反向传播(2BP)。通过将反向传播步骤分为两个独立阶段,我们可以减少空闲计算时间。我们在各种模型架构和流水线调度上测试了2BP,在所有情况下都实现了吞吐量的增加。使用2BP,我们在训练具有70亿参数的类LLaMa变压器时,相较于传统方法,实现了吞吐量增加1.70倍,跨4个GPU。
最近在文本转音乐编辑方面取得的进展,利用文本查询来修改音乐(例如通过改变风格或调整乐器组件),为AI辅助音乐创作带来了独特的挑战和机遇。在这一领域先前的方法受到了训练特定编辑模型的限制,这既耗费资源又低效;其他研究使用大型语言模型来预测编辑后的音乐,导致音频重建不精确。为了结合优势并解决这些限制,我们引入了Instruct-MusicGen,这是一种新颖的方法,通过微调预训练的MusicGen模型来有效地遵循编辑指令,如添加、删除或分离音轨。我们的方法修改了原始MusicGen架构,加入了文本融合模块和音频融合模块,使模型能够同时处理指令文本和音频输入,并产生所需的编辑后音乐。值得注意的是,Instruct-MusicGen仅向原始MusicGen模型引入了8%的新参数,并仅训练了5K步,但在所有任务中表现优越于现有基准,并展示了与专门任务训练的模型相媲美的性能。这一进展不仅提升了文本转音乐编辑的效率,还拓宽了音乐语言模型在动态音乐制作环境中的适用性。
Yuan 2.0-M32采用与Yuan-2.0 2B相似的基础架构,采用了包含32个专家的专家混合架构,其中有2个专家处于活跃状态。提出并采纳了一种新的路由器网络,称为Attention Router,用于更高效地选择专家,这使得准确率比采用经典路由器网络的模型提高了3.8%。Yuan 2.0-M32从零开始使用了来自2000B标记的训练数据,而训练计算消耗仅为具有相同参数规模的密集模型的9.25%。Yuan 2.0-M32在编码、数学和各种专业领域展现出竞争力,仅有40B总参数中的3.7B处于活跃状态,每个标记的前向计算为7.4 GFlops,这两者仅为Llama3-70B的1/19。Yuan 2.0-M32在MATH和ARC-Challenge基准测试中超越了Llama3-70B,准确率分别为55.89和95.8。Yuan 2.0-M32的模型和源代码已在Github上发布。
现代大型语言模型(LLMs)在解决自然语言处理、复杂推理、情感分析和其他任务方面的能力非凡,这促使它们被广泛采用。不幸的是,这些能力伴随着非常高的内存和计算成本,这使得在大多数硬件平台上无法使用LLMs。为了缓解这一问题,我们提出了一种有效的方法,基于LLaMA2-7B使用一次性NAS来找到帕累托最优网络架构。具体来说,我们仅对LLaMA2-7B进行一次微调,然后应用基于遗传算法的搜索来找到更小、计算复杂性更低的网络架构。我们展示了对于某些标准基准任务,预训练的LLaMA2-7B网络是不必要地庞大和复杂。更具体地,我们展示了在某些任务中模型尺寸减少了1.5倍,吞吐量加快了1.3倍,而准确率几乎没有下降。除了找到更小、性能更高的网络架构外,我们的方法比某些剪枝或稀疏技术更有效、更高效地实现了这一目标。最后,我们展示了量化如何与我们的方法相辅相成,以及我们找到的网络的尺寸和复杂性可以通过量化进一步减小。我们相信我们的工作提供了一种自动创建LLMs的方式,这些模型可以在更便宜、更易获得的硬件平台上使用。
从视频输入中重建4D场景是一项至关重要但具有挑战性的任务。 传统方法通常依赖于多视角视频输入的假设、已知摄像机参数或静态场景,而这些通常在野外场景下是缺失的。 在本文中,我们放宽了所有这些约束,并解决了一个非常雄心勃勃但实际的任务,我们将其称为AnyV4D:我们假设只有一个单目视频可用作输入,没有任何摄像机参数,并且我们的目标是恢复动态的4D世界以及摄像机姿态。 为此,我们引入了GFlow,这是一个新框架,仅利用2D先验(深度和光流)将视频(3D)提升到一个明确的4D表示,其中包括通过空间和时间的高斯飞溅流。 GFlow首先将场景分为静止部分和移动部分,然后应用一个顺序优化过程,基于2D先验和场景聚类来优化摄像机姿态和3D高斯点的动态,确保相邻点之间的保真度和跨帧的平滑移动。 由于动态场景总是引入新内容,我们还提出了一种新的面向像素的高斯点稠密化策略,以整合新的视觉内容。 此外,GFlow超越了单纯的4D重建的界限;它还能够跟踪任何点在帧之间的移动,无需事先训练,并以一种无监督的方式从场景中分割移动物体。 此外,每帧的摄像机姿态可以从GFlow中推导出,从而可以通过改变摄像机姿态来渲染视频场景的新视图。 通过采用明确的表示,我们可以根据需要轻松进行场景级或对象级的编辑,突显其多功能性和强大性。请访问我们的项目网站:https://littlepure2333.github.io/GFlow
大型语言模型(LLMs)最近已成为处理许多语言处理任务的强大工具。尽管取得了成功,但训练和微调这些模型仍然需要过多的计算和内存资源。在本文中,我们确定并描述了实现梯度下降有效模型收敛所需的重要组件。在这个过程中,我们发现用于实现反向传播的中间激活可以进行过度压缩,而不会降低性能。这一结果使我们提出了一种廉价且内存高效的算法,用于LLMs的微调和预训练。所提出的算法简单地将标记分成较小的子标记,然后在前向传递过程中将它们投影到一个固定的一维子空间上。这些特征在反向传递过程中被粗略重构,以实现更新规则。我们确认了我们的算法在VTAB-1k微调基准测试中作为许多最先进的PEFT方法的补充的有效性。此外,我们在LLaMA的微调中胜过了QLoRA,并在大规模C4数据集上展现了与其他内存高效的预训练方法竞争性能。
场景图像编辑对于娱乐、摄影和广告设计至关重要。现有方法仅专注于2D个体对象或3D全局场景编辑。这导致缺乏一种统一的方法来有效地控制和操作具有不同粒度级别的3D场景。在这项工作中,我们提出了3DitScene,这是一种新颖的统一场景编辑框架,利用语言引导的分解高斯光斑,实现了从2D到3D的无缝编辑,允许对场景构图和个体对象进行精确控制。我们首先引入了经过生成先验和优化技术优化的3D高斯函数。然后,来自CLIP的语言特征将语义引入3D几何中,用于对象分解。通过分解的高斯函数,3DitScene允许在全局和个体级别进行操作,彻底改变了创意表达方式,增强了对场景和对象的控制能力。实验结果展示了3DitScene在场景图像编辑中的有效性和多功能性。代码和在线演示可在我们的项目主页找到:https://zqh0253.github.io/3DitScene/。