每日精选AI研究论文及翻译
本文揭示了一种新颖的线性特征,仅适用于变压器解码器,包括GPT、LLaMA、OPT、BLOOM等模型。我们分析了顺序层之间的嵌入变换,揭示了一种接近完美的线性关系(普洛克鲁斯特相似度得分为0.99)。然而,当去除残差部分时,由于变压器层的输出范数一贯较低,线性性会降低。我们的实验表明,去除或线性逼近一些最线性的变压器块并不显著影响损失或模型性能。此外,在我们针对较小模型进行的预训练实验中,我们引入了基于余弦相似度的正则化,旨在减少层的线性性。这种正则化改善了像Tiny Stories和SuperGLUE这样的基准测试中的性能指标,成功降低了模型的线性性。这项研究挑战了人们对变压器架构的现有理解,表明它们的运行可能比先前假设的更线性。
键-值(KV)缓存在加速基于变压器的自回归大型语言模型(LLMs)解码中起着至关重要的作用。然而,存储KV缓存所需的内存量在长序列长度和大批量大小下可能变得难以承受。自变压器的发明以来,用于减小KV缓存大小的两种最有效的干预措施是多查询注意力(MQA)及其泛化形式,分组查询注意力(GQA)。MQA和GQA都修改了注意力块的设计,使多个查询头可以共享单个键/值头,大幅减少不同键/值头的数量,同时只略微降低准确性。在本文中,我们展示了可以通过在相邻层之间共享键和值头进一步发展多查询注意力,从而产生一种我们称之为跨层注意力(CLA)的新型注意力设计。通过CLA,我们发现可以将KV缓存的大小再减少2倍,同时保持几乎与未修改的MQA相同的准确性。在从头开始训练10亿和30亿参数模型的实验中,我们证明了CLA相对于传统MQA可能的内存/准确性权衡提供了帕累托改进,使推断可以使用比以往更长的序列长度和更大的批量大小。
世界模型构成了一种有前途的方法,可以以安全且高效的方式训练强化学习代理。最近的世界模型主要通过序列化的离散潜变量来模拟环境动态。然而,这种压缩成紧凑的离散表示可能会忽略对强化学习重要的视觉细节。与此同时,扩散模型已成为图像生成的主要方法,挑战着传统的建模离散潜变量的方法。受这种范式转变的启发,我们引入了DIAMOND(DIffusion As a Model Of eNvironment Dreams),这是一个在扩散世界模型中训练的强化学习代理。我们分析了使扩散适用于世界建模所需的关键设计选择,并展示了如何通过改进的视觉细节可以提高代理的性能。DIAMOND在具有竞争力的Atari 100k基准测试中实现了平均人类标准化得分为1.46;这是完全在世界模型中训练的代理的新记录。为了促进未来关于将扩散用于世界建模的研究,我们在https://github.com/eloialonso/diamond 上发布了我们的代码、代理和可玩世界模型。
当前的人脸重现和交换方法主要依赖于生成对抗网络(GAN)框架,但最近的关注重点已转向预训练扩散模型,因为它们具有更优越的生成能力。然而,训练这些模型需要大量资源,并且结果尚未达到令人满意的性能水平。为了解决这个问题,我们引入了Face-Adapter,一种专为预训练扩散模型设计的高精度和高保真度人脸编辑适配器。我们观察到,人脸重现/交换任务本质上涉及目标结构、ID和属性的组合。我们的目标是充分解耦这些因素的控制,以实现一个模型中的两个任务。具体而言,我们的方法包括:1)空间条件生成器,提供精确的标志点和背景;2)即插即用的身份编码器,通过变压器解码器将人脸嵌入转移到文本空间;3)属性控制器,整合空间条件和详细属性。Face-Adapter在运动控制精度、ID保留能力和生成质量方面实现了与完全微调的人脸重现/交换模型相媲美甚至更优越的性能。此外,Face-Adapter与各种StableDiffusion模型无缝集成。
图像匹配领域不断涌现新的可学习特征匹配技术,其在传统基准测试中表现不断提升。然而,我们的研究显示,尽管取得了这些进展,但它们在面向新领域的实际应用潜力受到限制,因为它们对新领域的泛化能力有限。本文介绍了 OmniGlue,这是第一个以泛化作为核心原则设计的可学习图像匹配器。OmniGlue利用视觉基础模型的广泛知识来引导特征匹配过程,提升对训练时未见领域的泛化能力。此外,我们提出了一种新颖的关键点位置引导的注意机制,将空间和外观信息解耦,从而产生增强的匹配描述符。我们在包括场景级、物体中心和航拍图像在内的7个数据集上进行了全面实验。OmniGlue的新颖组件相对于一个直接可比的参考模型在未见领域上实现了20.9%的相对增益,同时也比最近的 LightGlue 方法相对提高了9.5%。代码和模型可在 https://hwjiang1510.github.io/OmniGlue 找到。
我们提出了个性化残差和局部注意力引导采样,用于使用文本到图像扩散模型进行高效的概念驱动生成。我们的方法首先通过冻结预训练文本条件扩散模型的权重来表示概念,并为模型的一个小子集学习低秩残差。基于残差的方法直接实现了我们提出的采样技术的应用,该技术通过交叉注意力仅在概念局部化的区域应用学习到的残差,并在所有其他区域应用原始扩散权重。因此,局部化采样将概念的学习身份与基础扩散模型的现有生成先验相结合。我们展示了个性化残差在单个GPU上在约3分钟内有效捕获概念的身份,无需使用正则化图像,并且比先前模型具有更少的参数,而局部化采样允许在图像的大部分区域使用原始模型作为强先验。