每日精选AI研究论文及翻译
个性化图像合成领域取得了显著进展,如文本反演、梦境展示和LoRA等方法。然而,它们在实际应用中受到高存储需求、漫长的微调过程以及需要多个参考图像的限制。相反,现有的基于ID嵌入的方法虽然只需要单向推理,但面临挑战:它们要么需要跨多个模型参数进行大量微调,要么与社区预训练模型不兼容,要么无法保持高面部保真度。为了解决这些限制,我们引入了InstantID,这是一个基于强大扩散模型的解决方案。我们的即插即用模块能够灵活处理各种风格的图像个性化,只需一张面部图像,同时确保高保真度。为实现这一目标,我们设计了一个新颖的IdentityNet,通过施加强语义和弱空间条件,将面部和标志图像与文本提示相结合,引导图像生成。InstantID展示了出色的性能和效率,在重视身份保护的实际应用中具有极大的益处。此外,我们的工作与流行的预训练文本到图像扩散模型(如SD1.5和SDXL)无缝集成,作为一个适应性插件。我们的代码和预训练检查点将在https://github.com/InstantID/InstantID 上提供。
本文介绍了AIM,这是一组使用自回归目标预训练的视觉模型集合。这些模型受其文本对应物——即大型语言模型(LLMs)的启发,并表现出类似的扩展特性。具体而言,我们强调了两个关键发现:(1)视觉特征的性能随着模型容量和数据量的增加而提升,(2)目标函数的价值与模型在下游任务上的性能相关。我们通过在20亿张图像上预训练了一个70亿参数的AIM来说明这些发现的实际影响,该模型在ImageNet-1k上达到了84.0%的准确率,且冻结主干部分。有趣的是,即使在这个规模下,我们观察到性能没有饱和迹象,这表明AIM可能代表了训练大规模视觉模型的一个新前沿。AIM的预训练类似于LLMs的预训练,并且不需要任何图像特定策略来稳定大规模训练。
具有70亿或130亿参数的中等规模大型语言模型(LLMs)展现出有希望的机器翻译(MT)性能。然而,即使是表现最佳的130亿参数的LLM翻译模型,如ALMA,也无法与最先进的传统编码器-解码器翻译模型或更大规模的LLMs,如GPT-4,相提并论。在这项研究中,我们弥合了这种性能差距。我们首先评估了LLMs在MT任务中的有监督微调的缺点,强调了参考数据中存在的质量问题,尽管这些数据是人类生成的。然后,与模仿参考翻译的SFT相反,我们引入了对比偏好优化(CPO),这是一种训练模型避免生成足够但不完美翻译的新方法。将CPO应用于仅具有22K平行句子和1200万参数的ALMA模型,取得了显著的改进。由此产生的模型,称为ALMA-R,可以匹敌或超越WMT比赛获胜者和GPT-4在WMT'21、WMT'22和WMT'23测试数据集上的表现。
通常,使用长上下文大小训练LLM是计算上昂贵的,需要大量的训练时间和GPU资源。现有的长上下文扩展方法通常需要额外的训练过程来支持相应的长上下文窗口,其中需要长上下文训练数据(例如32k),并假定高GPU训练成本。为了解决上述问题,我们提出了一种用于大型语言模型的高效和极端长度扩展方法,称为E 2 -LLM,只需一个训练过程和大幅降低的计算成本,同时也无需收集长上下文数据。具体来说,首先,我们的E 2 -LLM的训练数据只需要短长度(例如4k),大大降低了调整成本。其次,在短训练上下文窗口上的训练过程只执行一次,我们可以在推断时支持不同的评估上下文窗口。第三,在E 2 -LLM中,基于RoPE位置嵌入,我们为训练中的不同样本的尺度和位置索引参数引入了两种不同的增强方法。旨在使模型在推断时直接插值任意上下文长度时更具鲁棒性。在多个基准数据集上的全面实验结果展示了我们的E 2 -LLM在具有挑战性的长上下文任务上的有效性。
尽管大型预训练语言模型具有一般的能力,但它们始终受益于进一步调整以更好地实现期望的行为。然而,调整这些模型已变得日益资源密集,或者在模型权重是私有的情况下是不可能的。我们引入了代理调整,这是一种轻量级的解码时算法,它在黑盒语言模型的基础上运行,以实现直接调整模型的结果,但只通过访问其对输出词汇的预测。我们的方法是调整一个较小的语言模型,然后应用经过调整和未经调整的较小语言模型之间预测差异,将基础模型的原始预测朝着调整的方向移动,同时保留较大规模预训练的好处。在实验中,当我们将代理调整应用于Llama2-70B,并使用仅为7B大小的代理时,我们可以在知识、推理和安全基准测试中,将Llama2-70B与其真正调整的聊天版本之间的差距缩小88%。有趣的是,在TruthfulQA上进行测试时,代理调整模型实际上比直接调整模型更真实,可能是因为解码时的指导更好地保留了模型的事实知识。然后,我们通过将代理调整应用于代码领域适应和针对问答和数学问题的任务特定微调,展示了代理调整的普适性。我们的工作展示了使用小型调整的语言模型通过解码时指导高效定制大型、潜在专有的语言模型的潜力。
生成模型展示了在合成高质量文本、图像和视频方面的显著能力。对于视频生成,当代文本到视频模型展示出令人印象深刻的能力,创作出视觉上令人惊叹的视频。然而,评估这类视频存在着重大挑战。当前研究主要采用自动化指标,如FVD、IS和CLIP分数。然而,这些指标提供了不完整的分析,特别是在视频内容的时间评估方面,因此使它们成为真实视频质量的不可靠指标。此外,虽然用户研究有潜力准确反映人类感知,但受其耗时且费力的本质所限,结果往往会被主观偏见所影响。在本文中,我们研究了现有指标固有的局限性,并引入了一种新颖的评估流程,即文本到视频分数(T2VScore)。该指标整合了两个关键标准:(1)文本-视频对齐,审查视频在呈现给定文本描述方面的忠实度,以及(2)视频质量,评估视频的整体制作水平与专家意见的混合。此外,为了评估所提出的指标并促进对其未来改进,我们提出了TVGE数据集,收集了对2,543个文本到视频生成视频在这两个标准上的人类判断。在TVGE数据集上的实验表明,所提出的T2VScore在提供更好的文本到视频生成度量标准方面具有优越性。
大型语言模型(LLMs)众所周知在其预训练上下文窗口之外具有有限的外推能力,限制了它们在具有冗长输入的下游任务中的应用。最近的研究试图通过修改旋转位置嵌入(RoPE)来扩展LLMs的上下文窗口,RoPE是一种流行的位置编码方法,被广泛采用于知名的LLMs,如LLaMA、PaLM和GPT-NeoX。然而,之前的作品如位置插值(PI)和YaRN耗费资源且缺乏比较实验来评估它们的适用性。在这项工作中,我们确定了LLMs的注意熵(即注意力分数的信息熵)保持稳定的固有需求,并引入了一种新颖的RoPE扩展方法,结合调整RoPE的基频率和缩放注意力logits,以帮助LLMs有效地适应更大的上下文窗口。我们验证了我们的方法在各种对上下文要求严格的任务中,在不同上下文窗口大小下的微调性能和鲁棒性的优越性。值得注意的是,我们的方法将LLaMA-2-7B-Chat的上下文窗口扩展到16,384,仅需100个样本和6个训练步骤,展示了非凡的效率。最后,我们还探讨了数据组成和训练课程如何影响特定下游任务的上下文窗口扩展,建议以冗长对话微调LLMs作为一个良好的起点。我们在https://github.com/GAIR-NLP/Entropy-ABF发布了我们的代码和SFT数据。
近年来,诸如DALL-E、Craiyon和Stable Diffusion等机器学习模型因其能够从简洁描述中生成高分辨率图像的能力而受到广泛关注。与此同时,量子计算显示出有希望的进展,特别是在量子机器学习方面,它利用量子力学来满足传统机器学习算法日益增长的计算需求。本文探讨了量子机器学习和变分量子电路的整合,以增强基于扩散的图像生成模型的效果。具体而言,我们解决了经典扩散模型的两个挑战:低采样速度和庞大的参数需求。我们引入了两个量子扩散模型,并使用MNIST数字、时尚MNIST和CIFAR-10对它们的能力进行了基准测试,与其经典对应物相比。我们的模型在性能指标FID、SSIM和PSNR方面超越了具有相似参数数量的经典模型。此外,我们引入了一种一致性模型——幺正单采样架构,将扩散过程合并为一步,实现快速的一步图像生成。
尽管生成建模取得了最新的显著进展,但从文本提示有效生成高质量的3D资产仍然是一项困难的任务。一个关键挑战在于数据稀缺:最广泛的3D数据集仅包含数百万个资产,而它们的2D对应物包含数十亿个文本-图像对。为了解决这个问题,我们提出了一种新颖的方法,利用大型预训练的2D扩散模型的强大能力。更具体地说,我们的方法HexaGen3D对预训练的文本到图像模型进行微调,共同预测6个正交投影和相应的潜在三视图。然后,我们解码这些潜在因子以生成带纹理的网格。HexaGen3D不需要每个样本的优化,可以在7秒内从文本提示中推断出高质量且多样化的对象,相比现有方法,提供了更好的质量与延迟之间的折衷。此外,HexaGen3D展示了对新对象或组合的强大泛化能力。