每日精选AI研究论文及翻译
我们介绍了AudioPaLM,这是一个用于语音理解和生成的大型语言模型。AudioPaLM将基于文本的语言模型PaLM-2[Anil等,2023]和基于语音的语言模型AudioLM[Borsos等,2022]融合到一个统一的多模态架构中,能够处理和生成文本和语音,应用包括语音识别和语音到语音的翻译。AudioPaLM继承了从AudioLM中保留的保留语用信息(如说话者身份和语调)的能力,以及仅存在于文本大型语言模型(如PaLM-2)中的语言知识。我们证明,使用文本-唯一大型语言模型的权重初始化AudioPaLM可以改善语音处理,成功利用预训练中使用的更多文本训练数据来辅助语音任务。由此产生的模型在语音翻译任务中明显优于现有系统,并具有执行许多在训练中未见过的语言输入/目标语言组合的零翻译语音到文本的能力。AudioPaLM还展示了音频语言模型的特征,例如基于简短口语提示跨语言传递语音。我们在https://google-research.github.io/seanet/audiopalm/examples发布了我们方法的示例。
最近提出的任意分割模型(SAM)在许多计算机视觉任务中产生了重大影响。它正在成为许多高级任务的基础步骤,如图像分割、图像描述和图像编辑。然而,其巨大的计算成本阻碍了它在工业场景中更广泛的应用。这种计算主要来自于高分辨率输入下的Transformer架构。在本文中,我们提出了一种加速替代方法,用于这一基础任务,具有可比较的性能。通过将任务重新表述为分段生成和提示,我们发现一个常规的CNN检测器与实例分割分支也可以很好地完成这项任务。具体来说,我们将这个任务转换为众所周知的实例分割任务,并直接训练现有的实例分割方法,仅使用SAM作者发布的SA-1B数据集的1/50。通过我们的方法,我们实现了与SAM方法可比较的性能,运行速度提高了50倍。我们提供充分的实验结果来证明其有效性。代码和演示将在https://github.com/CASIA-IVA-Lab/FastSAM 上发布。
语言如何影响我们的下游思维?特别是,人类如何从语言中获得意义,以及我们如何利用语言意义理论来构建更类人思维的机器?在本文中,我们提出了理性意义构建,这是一个结合了神经语言模型和概率推理模型的计算框架,用于受语言启发的思维。我们将语言意义框架化为一种从自然语言到概率思维语言(PLoT)的上下文敏感映射,PLoT是一种用于概率生成世界建模的通用符号基质。我们的架构整合了两种强大的计算工具,这两者以前从未结合过:我们使用概率程序来建模思维,这是一种灵活的常识推理表达方式;我们使用大型语言模型(LLMs)来建模意义构建,支持从自然语言话语到概率编程语言代码表达的广泛翻译。我们通过涵盖认知科学的四个核心领域的示例展示了我们的框架:概率推理、逻辑和关系推理、视觉和物理推理,以及关于代理人及其计划的社会推理。在每个领域中,我们展示了LLMs可以生成捕捉到语用适当的语言意义的上下文敏感翻译,而使用生成的程序进行贝叶斯推理则支持连贯且强大的常识推理。我们扩展了我们的框架,以整合认知动机符号模块,提供一个从语言到统一常识思维接口。最后,我们探讨了语言如何驱动世界模型本身的构建。
将激活、权重和梯度量化为4位有望加速神经网络训练。然而,现有的4位训练方法需要定制的数值格式,这些格式不受当代硬件支持。在这项工作中,我们提出了一种用INT4算术实现所有矩阵乘法的transformer训练方法。使用超低的INT4精度进行训练具有挑战性。为了实现这一目标,我们仔细分析了transformer中激活和梯度的特定结构,为它们提出了专门的量化器。对于前向传播,我们确定了异常值的挑战,并提出了一种Hadamard量化器来抑制异常值。对于反向传播,我们利用梯度的结构稀疏性,提出了位分割和得分采样技术,以准确量化梯度。我们的算法在包括自然语言理解、机器翻译和图像分类在内的广泛任务上实现了竞争力的准确性。与先前的4位训练方法不同,我们的算法可以在当前一代GPU上实现。我们的原型线性运算符实现比FP16对应物快高达2.2倍,并将训练加速高达35.1%。
我们将大型语言模型(LLMs)视为网络中的随机语言层,其中可学习参数为每一层的自然语言提示。我们堆叠两个这样的层,将一个层的输出馈送到下一个层。我们将堆叠的架构称为深度语言网络(DLN)。我们首先展示如何有效地执行对于单层语言网络(DLN-1)的提示优化。然后,我们展示如何训练2层DLNs(DLN-2),其中必须学习两个提示。我们将第一层的输出视为一个潜变量进行边际化,并为联合提示训练设计了一种变分推断算法。DLN-2的性能比单层更高,有时甚至可与少样本GPT-4相媲美,即使网络中的每个LLM都较小且功能较弱。DLN代码是开源的:https://github.com/microsoft/deep-language-networks。
在过去几年中,Transformer模型已被广泛应用于各个领域,特别是大型语言模型显著推动了人工智能领域的发展。由于它们的规模,这些网络的能力已经大幅提升,但这也伴随着对计算资源的显著增加。量化是减少神经网络计算时间和内存消耗的最有效方法之一。然而,许多研究表明,现代Transformer模型往往会在其激活中学习到强烈的异常值,使得量化变得困难。为了保持可接受的性能,存在这些异常值需要将激活设置为更高的比特宽度,或者使用不同的数值格式、额外的微调或其他变通方法。我们发现,强烈的异常值与注意力头的特定行为相关,它们试图学习“无操作”或仅对残差进行部分更新。为了在注意力矩阵中实现所需的确切零值以进行无更新,softmax的输入在训练过程中被推动变得越来越大,导致网络其他部分出现异常值。基于这些观察结果,我们提出了两种简单(独立的)注意力机制修改方法 - 截断softmax和门控注意力。我们经验证明,使用我们的方法预训练的模型学习到的异常值显著较小,同时保持甚至提高了浮点任务性能。这使我们能够将Transformer模型量化为完整的INT8激活量化,而无需额外努力。我们展示了我们的方法在语言模型(BERT、OPT)和视觉Transformer上的有效性。
最近,预先训练于数十亿图像-文本对的文本到图像扩散模型已通过优化随机初始化的神经辐射场(NeRF)并进行分数蒸馏,实现了文本到三维内容的创建。然而,所得到的三维模型存在两个限制:(a)质量问题,如饱和色彩和雅努斯问题;(b)与文本引导的图像合成相比,多样性极低。本文表明,NeRF优化过程与分数蒸馏中均匀时间步采样之间的冲突是这些限制的主要原因。为解决这一冲突,我们提出优先考虑采样时间步,使用单调非递增函数,使NeRF优化与扩散模型的采样过程对齐。大量实验证明,我们的简单重新设计显著改善了文本到三维内容的创建,提高了质量和多样性。
最近大规模文本到图像扩散模型的进展使得图像编辑领域涌现出许多应用。然而,目前尚无一种方法能够编辑单个现有图像的布局。为了填补这一空白,我们提出了首个用于编辑单个图像布局的框架,同时保留其视觉特性,从而实现对单个图像的连续编辑。我们的方法通过两个关键模块实现。首先,为了保留图像中多个对象的特征,我们通过一种名为“掩码文本反演”的新方法,将不同对象的概念进行解耦,并嵌入到单独的文本标记中。接下来,我们提出了一种无需训练的优化方法,用于对预训练的扩散模型执行布局控制,从而使我们能够重新生成具有学习概念的图像,并将其与用户指定的布局对齐。作为首个能够编辑现有图像布局的框架,我们展示了我们的方法的有效性,并优于其他经过修改以支持此任务的基准方法。我们的代码将在接受后免费提供给公众使用。
Polis是一个利用机器智能来扩展审慎过程的平台。在本文中,我们探讨了应用大型语言模型(LLMs)解决Polis参与过程中促进、管理和总结结果所面临的机遇和风险。特别是,我们通过使用Anthropic的Claude进行试点实验来展示LLMs确实可以增强人类智能,以更有效地运行Polis对话。我们发现,总结能力使得全新的方法具有巨大潜力,有助于赋予公众在集体意义塑造练习中更多权力。值得注意的是,LLM的上下文限制对这些结果的洞察力和质量有重要影响。 然而,这些机遇伴随着风险。我们讨论了其中一些风险,以及表征和减轻这些风险的原则和技术,以及对可能采用LLMs的其他审慎或政治系统的影响。最后,我们总结了几个未来开放研究方向,以增强类似Polis的工具与LLMs的结合。
等变换器(Equivariant Transformers)如Equiformer已经证明了将Transformer应用于三维原子系统领域的有效性。然而,由于计算复杂性,它们仍然局限于小范围的等变表示。在本文中,我们调查了这些架构是否能够很好地扩展到更高的程度。从Equiformer开始,我们首先用eSCN卷积替换SO(3)卷积,以有效地整合更高阶的张量。然后,为了更好地利用更高阶的能力,我们提出了三种架构改进--注意力重归一化、可分离S^2激活和可分离层归一化。将所有这些结合起来,我们提出EquiformerV2,在大规模OC20数据集上比以往最先进的方法在力上提高了高达12%,在能量上提高了4%,提供了更好的速度-精度折衷,以及计算吸附能所需的DFT计算减少了2倍。