每日精选AI研究论文及翻译
我们介绍了Mixtral 8x7B,一种稀疏专家混合(SMoE)语言模型。Mixtral与Mistral 7B具有相同的架构,不同之处在于每个层由8个前馈块(即专家)组成。对于每个令牌,在每个层中,路由网络选择两个专家来处理当前状态并组合它们的输出。尽管每个令牌只看到两个专家,但所选专家在每个时间步可能会不同。因此,每个令牌可以访问47B参数,但在推断过程中仅使用13B活跃参数。Mixtral在上下文大小为32k令牌的情况下进行了训练,并在所有评估基准测试中表现优于或与Llama 2 70B和GPT-3.5相匹配。特别是,在数学、代码生成和多语言基准测试中,Mixtral远远优于Llama 2 70B。我们还提供了一个经过微调以遵循指令的模型Mixtral 8x7B - Instruct,它在人类基准测试中超越了GPT-3.5 Turbo、Claude-2.1、Gemini Pro和Llama 2 70B - 聊天模型。基础模型和指令模型均在Apache 2.0许可下发布。
状态空间模型(SSMs)已成为顺序建模领域的重要竞争者,挑战了Transformer的主导地位。与此同时,专家混合模型(MoE)显著改进了基于Transformer的LLMs,包括最近的开源模型。我们建议为了发挥SSMs在扩展方面的潜力,它们应与MoE相结合。我们在最近提出的基于SSM的模型Mamba上展示了这一点,该模型实现了出色的、类似Transformer的性能。我们的模型MoE-Mamba在性能上优于Mamba和Transformer-MoE。特别是,MoE-Mamba在较少的训练步骤中达到了与Mamba相同的性能,同时保持了Mamba相对于Transformer的推理性能提升。
在对话式人工智能研究中,有一个明显的趋势是开发参数更多的模型,例如ChatGPT等模型。虽然这些庞大的模型往往能够生成越来越好的聊天响应,但它们需要大量的计算资源和内存。本研究探讨了一个相关问题:一组较小模型的组合是否可以协作实现与单一大模型相当或更好的性能?我们引入了一种称为“混合”的方法,这是一种简单而有效的集成多个聊天人工智能的方法。我们的实证证据表明,当特定的较小模型被协同混合时,它们有可能超越或匹敌远大于自己的对应模型的能力。例如,仅集成三个中等规模的模型(6B/13B参数)就可以与远大于自己的模型ChatGPT(175B+参数)的性能指标相匹敌甚至超越。这一假设经过严格测试,使用A/B测试方法,在Chai研究平台上的大量用户基础上,历时三十天。研究结果强调了“混合”策略作为一种可行的方法,可以提升聊天人工智能的效能,而无需相应增加计算需求。
由于其有限的上下文窗口长度,长上下文的利用对大型语言模型构成了一项重大挑战。虽然可以通过微调来扩展上下文窗口,但这将导致训练和推断时间的显著成本,并对LLM的原始能力产生不利影响。在这项工作中,我们提出了激活信标(Activation Beacon),它将LLM的原始激活压缩为更紧凑的形式,使其能够在有限的上下文窗口内感知更长的上下文。激活信标被引入为LLM的即插即用模块。它在完全保留LLM在短上下文上的原始能力的同时,扩展了处理更长上下文的新能力。此外,它使用短滑动窗口来处理长上下文,从而在训练和推断中实现了竞争性的内存和时间效率。激活信标通过自回归任务学习,该任务以具有多样化压缩比的信标混合为条件。由于这种处理方式,它可以仅通过短序列数据在短短的10K步内进行高效训练,在单个8xA800 GPU机器上不到9小时。实验研究表明,激活信标能够将Llama-2-7B的上下文长度扩展100倍(从4K到400K),同时在长上下文生成和理解任务上取得了优越结果。我们的模型和代码将在BGE代码库中提供。
尽管最近文本到3D生成方法取得了进展,但可靠的评估指标仍然缺乏。现有的指标通常侧重于单一标准,比如资产与输入文本的对齐程度。这些指标缺乏灵活性,无法推广到不同的评估标准,并且可能与人类偏好不太一致。进行用户偏好研究是一种既具有适应性又与人类偏好一致的替代方法。然而,用户研究在扩展规模上可能非常昂贵。本文提出了一种自动、多功能且与人类偏好一致的文本到3D生成模型评估指标。为此,我们首先使用GPT-4V开发了一个提示生成器,用于生成评估提示,这些提示作为比较文本到3D模型的输入。我们进一步设计了一种方法,指导GPT-4V根据用户定义的标准比较两个3D资产。最后,我们使用这些两两比较结果为这些模型分配Elo评分。实验结果表明,我们的指标在不同的评估标准下与人类偏好强烈一致。
本文介绍了 DiarizationLM,这是一个利用大型语言模型(LLM)来后处理说话人辨别系统输出的框架。提出的框架可以实现各种目标,如提高辨别转录的可读性,或减少词辨别错误率(WDER)。在这个框架中,自动语音识别(ASR)和说话人辨别系统的输出被表示为紧凑的文本格式,该格式包含在可选地微调的LLM的提示中。LLM的输出可以作为经过改进的辨别结果来实现所需的增强。作为后处理步骤,这个框架可以轻松应用于任何现成的ASR和说话人辨别系统,而无需重新训练现有组件。我们的实验表明,微调的PaLM 2-S模型可以在Fisher电话对话数据集上将WDER降低相对25.9%,在Callhome英语数据集上降低相对31%。
大型语言模型(LLMs)在与代码相关的任务中取得了重大进展,然而许多LLMs将代码视为简单序列,忽视了其结构化特性。我们引入了AST-T5,一种新颖的预训练范式,利用抽象语法树(AST)来增强代码生成、转译和理解能力。通过动态规划,我们的AST感知分割保留了代码结构,而我们的AST感知跨度破坏目标使模型能够重构各种代码结构。与其他模型不同,AST-T5避免了复杂的程序分析或架构更改,因此可以与任何编码器-解码器Transformer轻松集成。评估结果显示,AST-T5在各种与代码相关的任务中始终优于类似规模的LLMs。结构感知使AST-T5在代码到代码任务中特别强大,在Bugs2Fix任务的精确匹配得分上超过CodeT5 2分,在CodeXGLUE中的Java-C#转译精确匹配得分上超过3分。我们的代码和模型可在https://github.com/gonglinyuan/ast_t5 上公开获取。
我们提出了CRUXEval(代码推理、理解和执行评估),这是一个基准测试,包含800个Python函数(3-13行)。每个函数都附带一个输入-输出对,导致两个自然任务:输入预测和输出预测。首先,我们提出了一个通用的方法来生成我们的执行基准测试,可以用来创建未来的基准测试变体。其次,我们在我们的基准测试中评估了二十个代码模型,并发现许多最近在HumanEval上得分很高的模型在我们的基准测试上并未显示出相同的改进。第三,我们展示了简单的CoT和微调方案可以提高我们基准测试的性能,但仍然远未解决问题。最佳设置是使用CoT的GPT-4,分别在输入和输出预测上达到了75%和81%的pass@1。相比之下,Code Llama 34B在输入和输出预测上的pass@1分别为50%和46%,突出了开源和闭源模型之间的差距。由于没有模型能够完全通过CRUXEval测试,我们提供了GPT-4在简单程序上连续失败的示例,以便深入了解其代码推理能力和改进方向。
预训练模型的出现对自然语言处理(NLP)和计算机视觉到关系数据集等领域产生了显著影响。传统上,这些模型是通过微调下游任务来评估的。然而,这引发了如何更高效、更有效地评估这些模型的问题。在本研究中,我们探讨了一种新颖的方法,利用与每个实体相关的元特征作为世界知识的来源,并利用模型中的实体表示。我们提出利用这些表示和元特征之间的一致性作为评估预训练模型的度量标准。我们的方法在各个领域展示了其有效性,包括具有关系数据集、大型语言模型和图像模型的模型。
随着对自动三维内容创建流程日益增长的需求,研究了各种三维表示形式,以从单个图像生成三维对象。由于其出色的渲染效率,基于三维高斯飞溅的模型最近在三维重建和生成方面表现出色。基于三维高斯飞溅的图像到三维生成方法通常是基于优化的,需要许多计算昂贵的分数蒸馏步骤。为了克服这些挑战,我们引入了一种摊销生成式三维高斯框架(AGG),可以即时从单个图像生成三维高斯,消除了每个实例优化的需要。利用中间混合表示,AGG将三维高斯位置的生成和其他外观属性的联合优化进行了分解。此外,我们提出了一个级联流程,首先生成三维数据的粗略表示,然后利用三维高斯超分辨率模块对其进行上采样。我们的方法与现有基于优化的三维高斯框架和利用其他三维表示的基于采样的流程进行了评估,AGG在生成能力上在定性和定量上展示出竞争力,同时速度快几个数量级。项目页面:https://ir1d.github.io/AGG/
在这份技术报告中,我们介绍了TeleChat,这是一个包含30亿、70亿和120亿参数的大型语言模型(LLMs)集合。它包括预训练的语言模型以及与人类偏好相一致的微调聊天模型。TeleChat最初在包含来自英语和中文语言的各种文本的广泛语料库上进行预训练,包括数万亿的标记。随后,模型经过微调以与人类偏好一致,遵循我们描述的详细方法论。我们评估了TeleChat在各种任务上的性能,包括语言理解、数学、推理、代码生成和基于知识的问答。我们的研究结果表明,TeleChat在各种公共基准测试中取得了与其他开源模型相当的性能,这些模型大小相似。为了支持未来利用LLMs的研究和应用,我们向公众社区发布了TeleChat的7B和12B变体的微调模型检查点,以及代码和部分预训练数据。