每日精选AI研究论文及翻译
本文介绍了一种高效的方法,用于将基于Transformer的大型语言模型(LLMs)扩展到具有有限内存和计算的无限长输入。我们提出的方法的关键组成部分是一种名为无限注意力(Infini-attention)的新注意力技术。无限注意力将一种压缩式记忆引入到基本注意力机制中,并在单个Transformer块中构建了遮罩局部注意力和长期线性注意力机制。我们在长上下文语言建模基准、100万序列长度的密码上下文块检索和50万长度的书籍摘要任务上展示了我们方法的有效性,使用了10亿和80亿的LLMs。我们的方法引入了最小的有限内存参数,并实现了LLMs的快速流推理。
大型语言模型(LLMs)取得了显著的成果,但其不断增长的资源需求已成为强大且可访问的超人类智能发展的主要障碍。本报告介绍了JetMoE-8B,这是一个新的LLM,仅耗资不到0.1百万美元进行训练,使用了来自精心混合的开源语料库的1.25T令牌和30,000个H100 GPU小时。尽管成本低廉,JetMoE-8B展现出令人印象深刻的性能,JetMoE-8B胜过了Llama2-7B模型,而JetMoE-8B-Chat超越了Llama2-13B-Chat模型。这些结果表明,LLM的训练可以比一般认为的更具成本效益。JetMoE-8B基于一种高效的稀疏门控专家混合(SMoE)架构,由注意力和前馈专家组成。这两个层都是稀疏激活的,使得JetMoE-8B在仅激活每个输入令牌的2B的情况下拥有8B参数,与Llama2-7B相比,推断计算减少约70%。此外,JetMoE-8B非常开放且友好于学术界,仅使用公共数据集和训练代码。本报告详细介绍了所有训练参数和数据混合,以促进未来在开放基础模型开发方面的努力。这种透明度旨在鼓励合作和推动可访问且高效的LLM领域的进一步发展。模型权重可在https://github.com/myshell-ai/JetMoE 上公开获取。
在长文本语境模型的评估中,针对草堆中的针(NIAH)测试被广泛采用,该测试检验从长篇幕后文本(“草堆”)中检索信息(“针”)的能力。然而,这种简单的基于检索的测试只能表明一种表面形式的长文本理解能力。为了更全面地评估长文本语境模型,我们创建了一个新的合成基准RULER,具有灵活的配置,可定制序列长度和任务复杂性。RULER在基础的NIAH测试基础上进行了扩展,涵盖了具有不同类型和数量针的变体。此外,RULER引入了新的任务类别,如多跳追踪和聚合,以测试超越从语境中搜索的行为。我们在RULER中评估了十个长文本语境模型,涵盖了13个代表性任务。尽管在基础的NIAH测试中几乎达到完美的准确率,但所有模型在语境长度增加时都表现出较大的性能下降。尽管这些模型都声称支持32K令牌或更大的上下文大小,但只有四个模型(GPT-4、Command-R、Yi-34B和Mixtral)能够在32K长度时保持令人满意的性能。我们对支持200K上下文长度的Yi-34B进行的分析显示,在增加输入长度和任务复杂性时,还有很大的改进空间。我们开放源代码RULER,以促进对长文本语境模型的全面评估。
我们介绍了RealmDreamer,这是一种从文本描述生成通用前向3D场景的技术。我们的技术优化了3D高斯飘零表示,以匹配复杂的文本提示。我们通过利用最先进的文本到图像生成器初始化这些飘零,将它们提升到3D,并计算遮挡体积。然后,我们将这种表示优化到多个视图上,作为一个带图像条件扩散模型的3D修补任务。为了学习正确的几何结构,我们结合了一个深度扩散模型,通过对修补模型的样本进行条件化,提供丰富的几何结构。最后,我们使用来自图像生成器的锐化样本对模型进行微调。值得注意的是,我们的技术不需要视频或多视角数据,可以合成各种不同风格的高质量3D场景,包括多个物体。其通用性还允许从单个图像进行3D合成。
我们分析了预训练的大型语言模型(例如Llama2、GPT-4、Claude 3等)在提供上下文示例时,无需任何额外训练或梯度更新即可进行线性和非线性回归的表现。我们的研究发现,一些大型语言模型(如GPT-4、Claude 3)能够执行回归任务,其性能与传统监督方法(如随机森林、装袋法或梯度提升)不相上下,甚至表现更好。例如,在具有挑战性的Friedman #2回归数据集上,Claude 3的表现优于许多监督方法,如AdaBoost、支持向量机(SVM)、随机森林、KNN或梯度提升。然后,我们调查了大型语言模型的性能如何随着上下文示例数量的增加而扩展。我们借鉴了在线学习中的遗憾概念,并凭经验证明,大型语言模型能够获得次线性的遗憾。
视觉-语言模型(VLMs)通常由视觉编码器(例如CLIP)和一个语言模型(LM)组成,后者解释编码特征以解决下游任务。尽管取得了显著进展,但由于视觉编码器的能力有限,VLMs存在一些缺点,例如对某些图像特征的“盲目性”、视觉幻觉等。为了解决这些问题,我们研究拓展VLMs的视觉编码能力。我们首先全面评估了几种具有不同归纳偏见的视觉编码器在解决VLM任务时的表现。我们观察到没有一种编码配置能在不同任务中始终取得最佳性能,具有不同偏见的编码器可以表现出惊人的相似性。受此启发,我们引入了一种名为BRAVE的方法,将多个冻结编码器的特征整合成更通用的表示形式,可以直接作为冻结LM的输入。BRAVE在广泛的字幕生成和视觉问答基准上实现了最先进的性能,并显著减少了VLMs的前述问题,同时需要比现有方法更少的可训练参数,并具有更紧凑的表示形式。我们的结果突显了将不同的视觉偏见纳入VLMs以获得更广泛和上下文化视觉理解的潜力。
对虚拟现实应用的需求不断增加,凸显了打造沉浸式3D资产的重要性。我们提出了一种文本到3D 360°场景生成管线,可在几分钟内为野外环境创建全面的360°场景。我们的方法利用2D扩散模型的生成能力和即时自我完善,创建高质量且全局连贯的全景图像。该图像充当初步的“平面”(2D)场景表示。随后,通过斑点技术将其转换为3D高斯模型,以实现实时探索。为了生成一致的3D几何结构,我们的管线通过将2D单眼深度对齐为全局优化的点云,构建空间连贯结构。这个点云作为3D高斯模型的质心的初始状态。为了解决单视角输入固有的不可见问题,我们对合成和输入相机视图都施加语义和几何约束作为正则化。这些约束引导高斯模型的优化,有助于重建看不见的区域。总之,我们的方法提供了360°视角下的全局一致的3D场景,比现有技术提供了更加增强的沉浸体验。项目网站:http://dreamscene360.github.io/
本研究探讨了是否可以将最初为大型语言模型(LLMs)设计的仅解码Transformer(如LLaMA)调整为适用于计算机视觉领域。我们首先逐步对标准ViT进行“LLaMA化”,以与LLaMA的架构保持一致,并发现直接将随机掩码应用于自注意力会导致注意力崩溃问题,导致网络训练失败。我们建议通过采用后序类记号技术,将类记号重新定位到图像记号之后,以克服这一挑战,从而使因果自注意力能够高效捕捉整个图像的信息。此外,我们开发了一种软掩码策略,逐渐在训练开始时引入因果掩码到自注意力中,以促进优化行为。定制的模型,被称为图像LLaMA(iLLaMA),在架构上类似于LLaMA,并支持直接监督学习。其因果自注意力提升了计算效率,并通过提升注意力映射排名学习复杂表示。iLLaMA与其仅编码器的对应物相媲美,仅使用570万参数即可实现75.1%的ImageNet top-1准确率。将模型扩展至约310M并在ImageNet-21K上进行预训练进一步提高准确性至86.0%。大量实验证明了iLLaMA的可靠特性:校准、形状-纹理偏差、量化兼容性、ADE20K分割和CIFAR迁移学习。我们希望我们的研究能在LLMs浪潮中为视觉模型设计带来新的视角。预训练模型和代码可在此处获取。
现有的用于音频理解的数据集主要侧重于单轮交互(即音频字幕,音频问答)来用自然语言描述音频,从而限制了通过交互式对话理解音频的能力。为了填补这一空白,我们引入了音频对话:一个包含163.8k个样本的多轮对话数据集,涵盖了一般音频和音乐。除了对话,音频对话还包含问题-答案对,以便理解和比较多个输入音频。音频对话采用基于提示的方法,并利用现有数据集的字幕注释,利用大型语言模型(LLM)生成多轮对话。我们在我们提出的数据集上评估现有的音频增强大型语言模型,以展示音频对话的复杂性和适用性。我们的生成数据集的代码将公开发布。详细提示和生成的对话可在演示网站https://audiodialogues.github.io/ 上找到。
最近预训练的基础视觉-语言模型取得了成功,使得开放词汇分割(OVS)成为可能。尽管表现令人期待,但这种方法引入了两个挑战:1)骨干模型尺寸庞大;2)微调过程中的昂贵成本,导致了沉重的计算开销。这些挑战阻碍了这种 OVS 策略在现实场景中的广泛适用和可负担性。虽然传统方法如模型压缩和高效微调可以解决这些挑战,但它们通常依赖于启发式方法。这意味着它们的解决方案不能轻松转移,并需要在不同模型上重新训练,这是有成本的。在高效的 OVS 环境中,我们的目标是利用较小的模型,降低训练成本的同时,实现与基于大型视觉-语言基础模型的先前 OVS 工作相媲美甚至更好的性能。核心策略是使我们的效率合理化,从而能够在不需要进一步定制的情况下,将其无缝地转移到其他 OVS 框架中。对多样的 OVS 基准进行全面实验,展示了我们在分割准确性和计算成本之间取得的优越权衡,超过了先前的工作。我们的代码可在 https://github.com/Xujxyang/OpenTrans 上找到。