每日精选AI研究论文及翻译
大型语言模型的可重现性和透明度对于推动开放研究、确保结果的可信度以及进行数据和模型偏见以及潜在风险的调查至关重要。为此,我们发布了OpenELM,这是一款最先进的开放式语言模型。OpenELM采用逐层缩放策略,在变换器模型的每一层内有效分配参数,从而提高准确性。例如,拥有大约十亿个参数预算的情况下,OpenELM相较于OLMo在准确性上提升了2.36%,同时需要的预训练标记数量减少了2倍。 与以往仅提供模型权重和推理代码,并在私有数据集上进行预训练的做法不同,我们的发布包括了在公开可用数据集上训练和评估语言模型的完整框架,包括训练日志、多个检查点和预训练配置。我们还发布了将模型转换为MLX库以在苹果设备上进行推理和微调的代码。这一全面的发布旨在赋予和加强开放研究社区的能力,为未来的开放研究努力铺平道路。 我们的源代码以及预训练模型权重和训练配方可在https://github.com/apple/corenet 上找到。此外,模型可以在HuggingFace上找到:https://huggingface.co/apple/OpenELM。
稀疏专家混合(SMoE)可以扩展模型容量,而不会显著增加训练和推理成本,但存在以下两个问题:(1)专家激活较低,仅有少数专家被激活以进行优化。(2)缺乏对单个标记内多个语义概念的细粒度分析能力。我们提出了多头专家混合(MH-MoE),它采用多头机制将每个标记分割为多个子标记。这些子标记然后被分配给并由一组不同的专家并行处理,然后无缝地重新集成到原始标记形式中。多头机制使模型能够共同关注来自不同专家的各种表示空间的信息,同时显著增强专家激活,从而加深上下文理解并减轻过拟合。此外,我们的MH-MoE易于实现,并与其他SMoE优化方法解耦,便于与其他SMoE模型集成以提高性能。在英语为中心的语言建模、多语言语言建模和遮蔽多模态建模任务上的大量实验结果表明了MH-MoE的有效性。
最近,语言模型和扩散模型显著推动了大规模零样本语音合成的进展。然而,这两种方法的生成过程速度较慢且计算密集。在保持与先前工作相当质量的同时,使用更低的计算预算实现高效语音合成仍然是一个重大挑战。本文介绍了FlashSpeech,一个大规模零样本语音合成系统,其推理时间约为先前工作的5\%。FlashSpeech建立在潜在一致性模型之上,并应用了一种新颖的对抗一致性训练方法,可以从头开始训练,无需预先训练的扩散模型作为教师。此外,一个新的韵律生成器模块增强了韵律的多样性,使语音的节奏听起来更加自然。FlashSpeech的生成过程可以通过一两个采样步骤高效实现,同时保持高音频质量和与音频提示的高相似性,用于零样本语音生成。我们的实验结果展示了FlashSpeech的卓越性能。值得注意的是,FlashSpeech的速度大约比其他零样本语音合成系统快20倍,同时在声音质量和相似性方面保持可比性。此外,FlashSpeech通过高效执行诸如语音转换、语音编辑和多样化语音采样等任务展示了其多功能性。音频样本可在https://flashspeech.github.io/找到。
本技术报告介绍了Pegasus-1,这是一种专门用于视频内容理解和通过自然语言进行交互的多模态语言模型。Pegasus-1的设计旨在解决视频数据带来的独特挑战,例如解释时空信息,以提供对各种长度的视频内容的细致理解。本技术报告概述了Pegasus-1的架构、训练策略以及在视频对话、零样本视频问答和视频摘要等基准测试中的性能。我们还探讨了Pegasus-1的定性特征,展示其能力以及局限性,以便为读者提供关于其当前状态和未来方向的平衡观点。
大型语言模型(LLMs)在处理广泛语境方面取得了显著进展,其中键-值(KV)缓存在提升性能方面发挥着至关重要的作用。然而,随着输入长度的增加,KV缓存的增长对内存和时间效率提出了挑战。为了解决这一问题,本文引入了SnapKV,这是一种创新的、无需微调的方法,可以在保持在实际应用中可比性能的同时,高效地最小化KV缓存大小。 我们发现模型中的每个注意力头在生成过程中始终专注于特定提示注意特征。同时,这种稳健的模式可以从位于提示末尾的“观察”窗口中获得。基于这一洞察力,SnapKV通过为每个注意力头选择聚类的重要KV位置自动压缩KV缓存。我们的方法显著减少了处理长输入序列时不断增长的计算开销和内存占用。具体来说,与基准相比,SnapKV在处理包含16K标记的输入时实现了一致的解码速度,生成速度提高了3.6倍,内存效率提高了8.2倍。同时,在跨16个长序列数据集上,与基准模型保持了可比的性能。此外,SnapKV可以在单个A100-80GB GPU上处理高达380K上下文标记,使用HuggingFace实现并进行了轻微更改,仅在“草堆中的针”测试中表现出可忽略的准确性下降。进一步的综合研究表明了SnapKV在实际应用中的潜力。
扩散模型(DMs)已经成为视觉领域及其他领域中最先进的生成建模方法。DMs的一个关键缺点是其较慢的采样速度,依赖于通过大型神经网络进行许多顺序函数评估。从DMs中进行采样可以被视为通过离散化的噪声水平集合解决微分方程。虽然过去的研究主要集中在推导高效求解器上,但对于寻找最佳采样计划却鲜有关注,整个文献都依赖于手工制定的启发式方法。在这项工作中,我们首次提出了一种通用且有原则的方法来优化DMs的采样计划,以获得高质量的输出,称为“调整您的步骤”。我们利用随机微积分方法,并找到了针对不同求解器、训练过的DMs和数据集的最佳计划。我们在几个图像、视频以及2D玩具数据合成基准上评估了我们的新方法,使用了各种不同的采样器,并观察到我们优化的计划在几乎所有实验中均优于先前手工制定的计划。我们的方法展示了采样计划优化的潜力,特别是在少步骤合成方案中。
大量现有研究已经通过描述计算形式模型来分析变压器架构的能力。然而,迄今为止,重点一直放在以语言接受为基础来分析架构。我们认为这在语言模型(LMs)研究中是一个不合适的问题,因为它们在定义上是字符串上的概率分布。在本文中,我们专注于变压器LM和n-gram LM之间的关系,n-gram LM是一种简单且具有历史意义的语言模型类别。我们展示了使用硬性或稀疏注意机制的变压器LM可以精确表示任何n-gram LM,从而为它们的概率表示能力提供了一个具体的下限。这为了解变压器LM可以用来表示字符串上的概率分布的机制迈出了第一步。