每日精选AI研究论文及翻译
我们对流行的开放权重预训练大型语言模型进行了实证研究,发现在删除大部分层(高达一半)之前,不同问答基准测试的性能几乎没有下降。为了剪枝这些模型,我们通过考虑层间的相似性来确定最佳的剪枝层块;然后,为了“修复”损伤,我们进行少量微调。具体来说,我们使用参数高效微调(PEFT)方法,特别是量化和低秩适配器(QLoRA),以便我们的每个实验都可以在单个A100 GPU上执行。从实际角度看,这些结果表明层剪枝方法可以辅助其他PEFT策略,进一步减少微调的计算资源,另一方面可以提高推理的内存和延迟。从科学角度看,这些大型语言模型对删除层的鲁棒性意味着当前的预训练方法要么没有充分利用网络更深层的参数,要么浅层在存储知识方面发挥了关键作用。
大型语言模型(LLMs)的发展,如ChatGPT和GPT-4,引发了关于人工通用智能(AGI)即将到来的讨论。然而,在开源模型中复制这些进展一直是具有挑战性的。本文介绍了InternLM2,这是一个开源LLM,在全面评估中表现优于其前身,在6个维度和30个基准测试中,长上下文建模以及通过创新的预训练和优化技术进行开放式主观评估。InternLM2的预训练过程被详细描述,重点介绍了准备各种数据类型,包括文本、代码和长上下文数据。InternLM2有效地捕捉长期依赖关系,最初在预训练和微调阶段训练了4k个标记,然后进展到32k个标记,展现出在20万个“草堆中的针”测试中出色的性能。InternLM2进一步通过监督微调(SFT)和一种新颖的通过人类反馈进行条件在线强化学习(COOL RLHF)策略进行了对齐,解决了冲突的人类偏好和奖励欺骗问题。通过在不同训练阶段和模型大小释放InternLM2模型,我们为社区提供了有关模型演进的见解。
最近,3D 高斯飘逸(3D Gaussian Splatting,3DGS)彻底改变了辐射场重建,实现了高质量的新视角合成和快速渲染速度,无需预先计算。然而,由于 3D 高斯函数的多视角不一致性,3DGS 无法准确表示表面。我们提出了2D 高斯飘逸(2D Gaussian Splatting,2DGS),这是一种新颖的方法,可以从多视角图像中对几何精确的辐射场进行建模和重建。我们的关键思想是将 3D 体积折叠成一组2D定向平面高斯盘。与 3D 高斯函数不同,2D 高斯函数提供了视角一致的几何形状,同时固有地对表面进行建模。为了准确恢复薄表面并实现稳定的优化,我们引入了透视准确的2D飘逸过程,利用射线-飘逸相交和光栅化。此外,我们还结合深度失真和法线一致性项,进一步提高了重建质量。我们展示了我们的可微渲染器能够实现无噪声和详细几何重建,同时保持竞争力的外观质量、快速训练速度和实时渲染。我们的代码将公开发布。
在文本到图像(T2I)生成模型方面取得了令人印象深刻的进展,产生了大量性能优异的模型,能够生成审美吸引人、逼真的图像。尽管取得了进展,这些模型仍然难以生成与输入提示一致的图像,往往无法正确捕捉对象数量、关系和属性。现有的改善提示-图像一致性的解决方案面临以下挑战:(1)它们往往需要对模型进行微调,(2)它们只关注附近的提示样本,(3)它们受到图像质量、表示多样性和提示-图像一致性之间不利的权衡影响。在本文中,我们解决了这些挑战,并引入了一个T2I提示优化框架OPT2I,利用大型语言模型(LLM)来提高T2I模型中的提示-图像一致性。我们的框架从用户提示开始,通过迭代生成修订提示,旨在最大化一致性得分。我们在两个数据集MSCOCO和PartiPrompts上进行了广泛验证,结果显示OPT2I可以将初始一致性得分提高高达24.9%,以DSG得分为指标,同时保持FID并增加生成数据与真实数据之间的召回率。我们的工作通过利用LLM的力量,为构建更可靠和稳健的T2I系统铺平了道路。
最近的文本到4D生成技术利用预训练的文本到视频模型进行监督,合成动态的3D场景。然而,现有的运动表示,如变形模型或时域神经表示,受到生成运动范围限制,无法合成超出用于体积渲染的边界框的运动。缺乏更灵活的运动模型导致了4D生成方法与最近的、接近照片级别逼真的视频生成模型之间现实感差距的存在。在这里,我们提出了TC4D:轨迹条件的文本到4D生成,将运动分解为全局和局部组件。我们使用由样条参数化的轨迹表示场景边界框的全局运动,通过来自文本到视频模型的监督学习符合全局轨迹的局部变形。我们的方法实现了沿任意轨迹动画化场景的合成、组合式场景生成,并显著改善了生成运动的逼真度和数量,我们通过定性评估和用户研究进行了评估。视频结果可在我们的网站上查看:https://sherwinbahmani.github.io/tc4d。
最近的三维高斯喷洒(3D-GS)相较于基于神经元场景表示的NeRF表现出卓越的渲染保真度和效率。虽然展示了实时渲染的潜力,3D-GS在具有复杂细节的大场景中遇到了渲染瓶颈,这是由于位于视锥体内的高斯基元数量过多所致。这种限制在缩小视图时特别明显,并且可能导致在具有不同细节的场景中渲染速度不一致。此外,它常常难以通过启发式密度控制操作在不同尺度上捕捉相应级别的细节。受到细节级别(LOD)技术的启发,我们引入了Octree-GS,具有LOD结构化的三维高斯方法,支持场景表示的细节级别分解,有助于最终渲染结果。我们的模型动态选择来自多分辨率锚点集的适当级别,确保通过自适应LOD调整保持一致的渲染性能,同时保持高保真度的渲染结果。
在这项研究中,我们提出了AniPortrait,这是一个新颖的框架,用于生成由音频和参考肖像图像驱动的高质量动画。我们的方法论分为两个阶段。首先,我们从音频中提取3D中间表示,并将其投影到一系列2D面部标记中。随后,我们采用强大的扩散模型,结合运动模块,将标记序列转换为逼真且在时间上连贯的肖像动画。实验结果表明,AniPortrait在面部自然性、姿势多样性和视觉质量方面表现优越,从而提供了增强的感知体验。此外,我们的方法在灵活性和可控性方面展现出相当大的潜力,可以有效应用于面部运动编辑或面部再现等领域。我们在https://github.com/scutzzj/AniPortrait 上发布了代码和模型权重。
我们提出了DreamPolisher,这是一种基于高斯光滑的方法,具有几何引导,旨在从文本描述中学习跨视图一致性和复杂细节。虽然最近关于文本到3D生成方法的进展令人鼓舞,但主流方法通常无法确保视图一致性和纹理丰富性。对于仅使用文本输入的方法,这个问题尤为明显。为解决这一问题,我们提出了一种基于两阶段高斯光滑的方法,强调视图之间的几何一致性。首先,粗略的3D生成经过几何优化进行细化。随后,我们使用一个由ControlNet驱动的细化器,结合几何一致性项,来提高生成的3D资产的纹理保真度和整体一致性。通过跨越各种物体类别的多样文本提示进行的实证评估表明,DreamPolisher在生成一致且逼真的3D物体方面表现出显著效果,与文本指令的语义紧密契合。
本文介绍了一个面向英特尔数据中心GPU Max 1550优化的多层感知器(MLP)的SYCL实现。为了提高性能,我们的实现通过在MLP的每一层中融合操作,最大限度地减少了慢速全局内存访问,从而最大化了通用寄存器文件和共享本地内存中的数据重用。我们通过一个简单的屋顶线模型表明,这导致算术强度显著增加,从而提高了性能,特别是推断性能。我们将我们的方法与类似的用于MLP的CUDA实现进行了比较,并展示了我们在英特尔数据中心GPU上的实现在推断方面的性能优于Nvidia的H100 GPU上的CUDA实现最多达2.84倍,在训练方面最多达1.75倍。本文还展示了我们的SYCL实现在三个重要领域的效率:图像压缩、神经辐射场和物理信息机器学习。在所有情况下,我们的实现在相同英特尔GPU上的现成Intel PyTorch扩展(IPEX)实现方面优于最多30倍,并且在Nvidia的H100 GPU上的CUDA PyTorch版本方面优于最多19倍。代码可在https://github.com/intel/tiny-dpcpp-nn找到。