每日精选AI研究论文及翻译
我们介绍了Florence-2,这是一个新颖的视觉基础模型,具有统一的、基于提示的表示形式,可用于各种计算机视觉和视觉-语言任务。现有的大型视觉模型擅长迁移学习,但在执行多样化的任务时往往难以使用简单的指令,这需要处理各种空间层次和语义粒度的复杂性。Florence-2被设计为接受文本提示作为任务指令,并生成文本形式的理想结果,无论是字幕生成、目标检测、定位还是分割。这种多任务学习设置需要大规模、高质量的标注数据。为此,我们共同开发了FLD-5B,其中包含了来自1.26亿张图像的54亿个全面的视觉标注,采用了自动图像标注和模型优化的迭代策略。我们采用了序列到序列结构来训练Florence-2执行多样化和全面的视觉任务。对多项任务的广泛评估表明,Florence-2是一个强大的视觉基础模型候选者,具有前所未有的零-shot和微调能力。
在开放世界中实现类人规划和控制,利用多模态观察是更具功能性的通用型智能体的关键里程碑。现有方法可以处理开放世界中的某些长程任务。然而,当开放世界任务的数量可能是无限的时,它们仍然存在困难,并且缺乏随着游戏时间推移逐渐增强任务完成能力。我们引入了 JARVIS-1,一个能够感知多模态输入(视觉观察和人类指令)、生成复杂计划并执行具体控制的开放世界智能体,全部在流行但具有挑战性的开放世界 Minecraft 宇宙中。具体来说,我们在预训练的多模态语言模型基础上开发了 JARVIS-1,该模型将视觉观察和文本指令映射到计划中。这些计划最终将被发送给目标条件控制器。我们为 JARVIS-1 配备了多模态记忆,这有助于利用预训练知识和实际游戏生存经验进行规划。在我们的实验中,JARVIS-1 在 Minecraft 宇宙基准测试的 200 多个不同任务中表现出几乎完美的性能,涵盖了入门到中级水平。JARVIS-1 在长程钻石镐任务中实现了 12.5% 的完成率。与以往记录相比,这是一个高达 5 倍的显著增加。此外,我们展示了 JARVIS-1 能够通过多模态记忆遵循终身学习范式进行自我改进,从而激发更一般的智能和改进的自主性。项目页面位于 https://craftjarvis-jarvis1.github.io。
最近,基于扩散模型的文本生成3D技术取得了显著进展。然而,现有方法要么依赖基于分数蒸馏的优化,存在推理速度慢、多样性低和双面问题,要么是前馈方法,由于3D训练数据稀缺而生成质量低下的结果。本文提出了Instant3D,一种新颖的方法,可以以前馈方式从文本提示中生成高质量且多样化的3D资源。我们采用两阶段范式,首先利用经过微调的2D文本到图像扩散模型一次性从文本中生成一组四个结构化且一致的视图,然后通过基于变压器的稀疏视图重建器直接回归生成的图像中的NeRF。通过大量实验证明,我们的方法能够在20秒内生成高质量、多样化且无双面问题的3D资源,比之前基于优化的方法快两个数量级,后者可能需要1到10小时。我们的项目网页:https://jiahao.ai/instant3d/。
我们介绍了 Lumos,这是一个用于训练语言代理的新型框架,采用统一的数据格式和基于开源大型语言模型(LLMs)的模块化架构。Lumos 包括三个不同的模块:规划、基础和执行。规划模块将任务分解为一系列高级、与工具无关的子目标,然后通过基础模块将其具体化为一组低级动作。这些动作随后由执行模块执行,利用各种现成的工具和API。为了有效训练这些模块,收集了高质量的子目标和动作注释,并可用于微调开源LLMs以用于各种任务,如复杂问题回答、网络任务和数学问题。利用这一统一数据和模块化设计,Lumos 不仅实现了与当前最先进代理相媲美或更优越的性能,而且展现了几个关键优势:(1)Lumos 在复杂问题回答和网络任务中超越了基于 GPT-4/3.5 的代理,同时在数学任务上与规模显著更大的LLM代理性能相当;(2)Lumos 胜过通过传统训练方法创建的开源代理和使用思维链训练的代理;以及(3)Lumos 能够有效地泛化到未见过的交互式任务,胜过更大规模的LLM代理,甚至超过专门代理的性能。
大型语言模型(LLMs)在自然语言处理及其他领域的许多任务中表现出色,但大多数开放模型对较小语言的覆盖范围非常有限,而且LLM工作往往集中在那些几乎可以获取无限数据进行预训练的语言上。在这项工作中,我们研究了为芬兰语创建LLMs所面临的挑战,芬兰语是世界人口中不到0.1%的人口使用的语言。我们编制了一个包括网络爬虫、新闻、社交媒体和电子书在内的大量芬兰语数据集。我们采用两种方法来预训练模型:1)我们从头开始训练了七个单语模型(参数范围从1.86亿到130亿),命名为FinGPT;2)我们继续在多语言BLOOM模型上进行预训练,使用其原始训练数据和芬兰语的混合数据,最终形成了一个拥有1760亿参数的模型,我们称之为BLUUMI。为了评估模型,我们引入了FIN-bench,这是一个包含芬兰语任务的BIG-bench版本。我们还评估了其他模型特性,如有害性和偏见。我们的模型和工具可在https://turkunlp.org/gpt3-finnish 公开获取。
即时工程是优化大型语言模型(LLMs)性能的一项具有挑战性但至关重要的任务。它需要复杂的推理来检查模型的错误,假设当前提示中缺少或误导的内容,并清晰地传达任务。尽管最近的研究表明LLMs可以被元提示以执行自动提示工程,但由于缺乏足够的指导来引发LLMs在元提示中进行复杂推理能力,它们的潜力可能尚未完全发挥。在这项工作中,我们研究了“提示工程提示工程师”的问题 - 构建一个更有效引导LLMs执行自动提示工程的元提示。我们介绍并分析了关键组件,如逐步推理模板和上下文规范,这些组件可以提高性能。此外,受批量大小、步长和动量等常见优化概念的启发,我们引入它们的口头化对应项到元提示中,并研究它们的影响。我们的最终方法,命名为PE2,在MultiArith数据集上比“让我们逐步思考”高出6.3%,在GSM8K数据集上高出3.1%。为了展示其多功能性,我们将PE2应用于Instruction Induction基准测试、一系列反事实任务以及一个冗长的真实工业提示。在这些设置中,PE2取得了良好的性能,并优于先前的自动提示工程基线。此外,我们展示PE2进行了有意义且有针对性的提示编辑,修正了错误或不完整的提示,并展示了非平凡的反事实推理能力。
逻辑推理是人类智能的基本方面,也是问题解决和决策等任务的关键组成部分。最近的进展使得大型语言模型(LLMs)有可能展现推理能力,但复杂的逻辑推理仍然是一个挑战。目前最先进的增强求解器语言模型使用LLMs首先解析自然语言逻辑问题为符号表示,然后采用外部逻辑求解器接收符号表示并输出答案。尽管它们表现出色,但任何解析错误都将不可避免地导致外部逻辑求解器执行失败,无法回答逻辑问题。本文介绍了LoGiPT,一种新颖的语言模型,它直接模拟逻辑求解器的推理过程,并通过学习严格遵循求解器语法和语法来规避解析错误。LoGiPT在一个新构建的指令调整数据集上进行微调,该数据集揭示并完善了演绎求解器的隐形推理过程。在两个公共演绎推理数据集上的实验结果表明,LoGiPT在竞争性LLMs(如ChatGPT或GPT-4)上优于最先进的求解器增强型LLMs和少样本提示方法。
大型基础模型已变得无处不在,但从头开始训练它们成本过高。因此,将这些强大模型高效地调整到下游任务变得日益重要。本文研究了一种原则性的微调范式——正交微调(OFT)——用于下游任务适应。尽管展示了良好的泛化能力,但由于正交矩阵的高维度,OFT仍然使用了相当多的可训练参数。为了解决这个问题,我们首先从信息传输的角度审视OFT,然后确定了几个能够实现更好参数效率的关键愿望。受库利-图基快速傅里叶变换算法实现高效信息传输的启发,我们提出了一种使用蝴蝶结构的高效正交参数化方法。我们将这种参数化应用于OFT,创造了一种新颖的参数高效微调方法,称为正交蝴蝶(BOFT)。通过将OFT纳入为一种特例,BOFT引入了一个广义的正交微调框架。最后,我们进行了广泛的实证研究,将大型视觉变换器、大型语言模型和文本到图像扩散模型调整到视觉和语言的各种下游任务中。
具有长滤波器的卷积模型在许多长序列任务中展现出最先进的推理能力,但在挂钟时间上落后于大多数优化的Transformer。一个主要瓶颈是快速傅里叶变换(FFT)--它允许长卷积在长度为N的序列中以O(N logN)的时间运行,但硬件利用率较低。在本文中,我们研究了如何优化FFT卷积。我们发现两个关键瓶颈:FFT没有有效地利用专门的矩阵乘法单元,并且在内存层次结构的层之间产生昂贵的I/O。作为回应,我们提出了FlashFFTConv。FlashFFTConv使用一种计算FFT的矩阵分解,利用矩阵乘法单元,并实现了长序列的内核融合,从而减少了I/O。我们还提出了两种稀疏卷积算法--1)部分卷积和2)频率稀疏卷积--可以通过在矩阵分解中跳过块来简单实现,为内存和计算节省提供了进一步的机会。FlashFFTConv将精确FFT卷积的速度提高了高达7.93倍,超过了PyTorch,并实现了高达4.4倍的端到端加速。在相同的计算预算下,FlashFFTConv使Hyena-GPT-s在PILE上的困惑度提高了2.3个点,使M2-BERT-base在GLUE分数上提高了3.3个点--与参数数量翻倍的模型相匹配。FlashFFTConv还在Path-512上实现了96.1%的准确率,这是一个高分辨率视觉任务,在此任务中以前没有任何模型能够达到50%以上的准确率。此外,部分卷积使得可以处理最长人类基因(2.3M碱基对)的第一个DNA模型成为可能,并且频率稀疏卷积加速了预训练模型,同时保持或提高了模型质量。
大型语言模型(LLMs)越来越多地用于需要规划和适应环境的交互式决策任务。最近的研究以两种广泛的方式使用LLMs作为代理:迭代确定下一步动作(迭代执行者)或使用LLMs生成计划并执行子任务(计划与执行)。然而,这些方法在处理任务复杂性时存在困难,因为无法执行任何子任务可能导致任务失败。为解决这些缺点,我们引入了适应性分解和规划复杂任务(ADaPT)的方法,该方法明确计划并根据需要分解复杂子任务,即当LLM无法执行时。ADaPT递归地分解子任务以适应任务复杂性和LLM能力。我们的结果表明,ADaPT明显优于已建立的强基线,在ALFWorld中成功率高出28.3%,在WebShop中高出27%,在TextCraft中高出33%,这是我们引入的一种新颖的组合数据集。通过广泛的分析,我们阐明了多级分解的重要性,并建立了ADaPT动态调整到执行者LLM的能力以及任务复杂性的事实。
多模态学习的主要挑战之一是需要结合异构模态(例如视频、音频、文本)。例如,视频和音频的获取速率远高于文本,并且在时间上大致对齐。它们通常与文本不同步,后者作为全局上下文,例如标题或描述。此外,视频和音频输入的体积要大得多,并且随着视频长度的增加而增加,这自然需要更多的计算资源专门用于这些模态,并使得对长距离依赖的建模更加困难。 我们在这里将多模态建模进行解耦,将其分为独立的、专注的自回归模型,根据模态的特征处理输入。我们提出了一个名为Mirasol3B的多模态模型,包括一个用于时间同步模态(音频和视频)的自回归组件,以及一个用于上下文模态的自回归组件,这些模态不一定在时间上对齐,但仍然是顺序的。为了解决视频-音频输入的长序列问题,我们建议进一步将视频和音频序列分割为连续的片段,并自回归地处理它们的表示。为此,我们提出了一个组合器机制,该机制在一个时间范围内共同建模音频视频信息。组合器学习从原始时空信号中提取音频和视频特征,然后学习融合这些特征,生成每个片段的紧凑但表达丰富的表示。 我们的方法在广受认可的多模态基准测试中取得了最先进的成果,胜过了规模更大的模型。它通过学习紧凑的表示形式、控制音频视频特征表示的序列长度,并建模它们在时间上的依赖关系,有效地解决了媒体输入的高计算需求。
学习特征交互是构建推荐系统的关键支柱。在大规模网络应用中,学习特征交互非常具有挑战性,因为输入特征空间稀疏且庞大;同时,由于指数级的解空间,手动精心设计有效的特征交互是不可行的。我们提出利用基于注意力层的Transformer架构自动捕获特征交互。Transformer架构在许多领域取得了巨大成功,如自然语言处理和计算机视觉。然而,在工业界,Transformer架构在特征交互建模方面的应用并不多见。我们旨在弥合这一差距。我们确定将基础Transformer架构应用于大规模网络推荐系统存在两个关键挑战:(1)Transformer架构无法在自注意力层中捕获异构特征交互;(2)Transformer架构的服务延迟可能过高,无法部署在大规模网络推荐系统中。我们首先提出了异构自注意力层,这是对Transformer中自注意力层的简单而有效修改,以考虑特征交互的异构性。然后,我们引入Hiformer(Heterogeneous Interaction Transformer)来进一步提高模型的表达能力。通过低秩近似和模型修剪,Hiformer在在线部署中具有快速推断的优势。大量离线实验结果证实了Hiformer模型的有效性和效率。我们已成功将Hiformer模型部署到Google Play的实际大规模应用排名模型中,关键参与度指标显著提升(最高可达+2.66%)。
密集预测任务,如语义分割、深度估计和表面法线预测,可以很容易地被表述为每像素分类(离散输出)或回归(连续输出)。这种每像素预测范式由于全卷积网络的普及而保持流行。然而,在分割任务的最新前沿,社区目睹了一种从每像素预测转向集群预测的范式转变,这是由于变压器架构的出现,特别是面罩变压器,它直接为面罩而不是像素预测标签。尽管出现了这种转变,仍然基于每像素预测范式的方法主导着需要连续输出的其他密集预测任务的基准测试,如深度估计和表面法线预测。受 DORN 和 AdaBins 在深度估计中通过离散化连续输出空间取得的成功的启发,我们提出将基于集群预测的方法推广到一般密集预测任务。这使我们能够将密集预测任务与面罩变压器框架统一起来。值得注意的是,由此产生的模型 PolyMaX 在 NYUD-v2 数据集的三个基准测试中展现出最先进的性能。我们希望我们简单而有效的设计能激发更多关于如何利用面罩变压器处理更多密集预测任务的研究。代码和模型将会提供。
最近,Transformer模型在计算机视觉任务中得到了广泛应用。然而,由于自注意力的二次时间和内存复杂度与输入标记数量成正比,大多数现有的Vision Transformers(ViTs)在实际工业部署场景中(如TensorRT和CoreML)遇到了效率性能方面的挑战,传统的CNN表现卓越。尽管最近一些尝试设计了CNN-Transformer混合架构来解决这个问题,但它们的整体性能并未达到预期。为了解决这些挑战,我们提出了一种名为FMViT的高效混合ViT架构。该方法通过混合具有不同频率的高频特征和低频特征来增强模型的表达能力,使其能够有效捕获局部和全局信息。此外,我们引入了部署友好的机制,如卷积多组重参数化(gMLP)、轻量级多头自注意力(RLMHSA)和卷积融合块(CFB),以进一步提高模型性能并减少计算开销。我们的实验表明,FMViT在各种视觉任务的延迟/准确性权衡方面超越了现有的CNNs、ViTs和CNN-Transformer混合架构。在TensorRT平台上,FMViT在ImageNet数据集的top-1准确率方面比Resnet101高出2.5%(83.3% vs. 80.8%),同时保持类似的推理延迟。此外,FMViT在推理速度上与EfficientNet-B5的性能相当,但推理速度提高了43%。在CoreML上,FMViT在ImageNet数据集的top-1准确率上比MobileOne高出2.6%,推理延迟与MobileOne相当(78.5% vs. 75.9%)。我们的代码可在https://github.com/tany0699/FMViT找到。