每日精选AI研究论文及翻译
我们描述了第一个针对希腊语开发的开放式大型语言模型Meltemi 7B的发展和能力。Meltemi 7B拥有70亿参数,并在一个包含40亿标记的希腊语语料库上进行训练。为了开发Meltemi 7B,我们通过在希腊语语料库上进行持续预训练来改编Mistral。Meltemi 7B包含截至2023年9月的最新信息。此外,我们翻译和整理了一个希腊语指令语料库,用于指令微调一个名为Meltemi 7B Instruct的聊天模型。我们在为Meltemi 7B Instruct进行对齐和去除有毒内容时特别注意。开发的模型在广泛收集的评估语料库上进行评估,并呈现了提示和回复的示例。Meltemi 7B和Meltemi 7B Instruct均可在https://huggingface.co/ilsp上以Apache 2.0许可证获得。
大型语言模型(LLMs)已经彻底改变了自然语言处理领域,通过利用增加的模型大小和序列长度,在各种应用中取得了前所未有的性能。然而,随之而来的计算和内存成本的上升带来了重大挑战,特别是在管理长序列时,由于Transformer注意力机制的二次复杂度。本文关注长上下文情况,解决了推理过程中KV缓存内存消耗的低效率问题。与现有方法优化基于序列长度的内存不同,我们发现KV缓存的通道维度存在显著的冗余,表现为注意力权重中不平衡的幅度分布和低秩结构。基于这些观察,我们提出了ThinK,一种新颖的基于查询的KV缓存修剪方法,旨在在有选择地修剪最不显著的通道的同时最小化注意力权重损失。我们的方法不仅保持或提升了模型的准确性,而且与普通的KV缓存驱逐方法相比,内存成本减少了超过20%。在LLaMA3和Mistral模型上对各种长序列数据集进行了广泛评估,证实了ThinK的有效性,为高效部署LLM树立了新的先例,而不会影响性能。我们还概述了将我们的方法扩展到值缓存修剪的潜力,展示了ThinK在减少内存和计算开销方面的多功能性和广泛适用性。
化学语言模型的大规模预训练方法代表了化学信息学的突破。这些方法通过在大型未标记语料库上进行自监督学习,学习输入标记的上下文化表示,在属性预测和分子生成等任务中表现出色。通常,这涉及在未标记数据上进行预训练,然后在特定任务上进行微调,减少对带标注数据的依赖,拓展化学语言表示的理解。本文介绍了一个基于大型编码器-解码器的化学基础模型,该模型在来自PubChem的经过筛选的9100万个SMILES样本数据集上进行了预训练,相当于40亿个分子标记。所提出的基础模型支持不同的复杂任务,包括量子属性预测,并提供了两个主要变体(2.89亿和8倍2.89亿)。我们在多个基准数据集上的实验验证了所提出模型在不同任务中提供最先进结果的能力。我们还对嵌入空间的组成进行了初步评估,作为推理任务的先决条件。我们证明,与最先进技术相比,所产生的潜在空间具有可分离性,并具有少样本学习能力。
随着大型语言模型(LLMs)越来越多地整合到运营工作流程中(LLM-Ops),迫切需要有效的防护措施,以确保安全和对齐的交互,包括检测跨语言的潜在不安全或不恰当内容的能力。然而,现有的适用于工作场所的分类器主要集中在英文文本上。为了填补马来西亚语言领域的这一空白,我们提出了一种专门针对马来西亚语言内容的新型适用于工作场所的文本分类器。通过精心策划和注释一种独一无二的跨多个内容类别的马来西亚文本数据集,我们训练了一个能够使用最先进的自然语言处理技术识别潜在不安全材料的分类模型。这项工作代表了在实现更安全的互动和内容过滤以减轻潜在风险并确保负责任部署LLMs方面的重要一步。为了最大限度地提高可访问性并促进进一步研究以增强LLM-Ops在马来西亚环境中的对齐性,该模型已在以下网址公开发布:https://huggingface.co/malaysia-ai/malaysian-sfw-classifier。
我们介绍了扩散增强代理(DAAG),这是一个新颖的框架,利用大型语言模型、视觉语言模型和扩散模型来提高具身体代理的强化学习中的样本效率和迁移学习。DAAG通过利用扩散模型对视频进行转换,以一种时间和几何一致的方式重新标记代理的过去经验,以使其与目标指令对齐,这一技术称为事后经验增强。一个大型语言模型协调这一自主过程,无需人类监督,非常适合终身学习场景。该框架减少了需要标记奖励数据的量,用于1)微调作为奖励检测器的视觉语言模型,以及2)训练RL代理执行新任务。我们展示了DAAG在涉及操作和导航的模拟机器人环境中的样本效率增益。我们的结果表明,DAAG改善了奖励检测器的学习、迁移过去经验和获取新任务的能力,这是开发高效终身学习代理的关键能力。我们的网站提供了补充材料和可视化内容:https://sites.google.com/view/diffusion-augmented-agents/
我们介绍了Knesset-DictaBERT,这是一个在Knesset语料库上进行微调的大型希伯来语言模型,该语料库包括以色列议会的会议记录。该模型基于DictaBERT架构,根据MLM任务在理解议会语言方面取得了显著进展。我们对模型性能进行了详细评估,展示了在困惑度和准确性方面相对于基准DictaBERT模型的改进。
本文介绍了一种创新的图像抠图方法,将传统的基于回归的任务重新定义为生成建模挑战。我们的方法利用潜在扩散模型的能力,结合丰富的预训练知识,对抠图过程进行规范化。我们提出了新颖的架构创新,使我们的模型能够生成分辨率和细节更出色的抠图。所提出的方法多才多艺,可以执行无引导和基于引导的图像抠图,适应各种额外线索。我们在三个基准数据集上进行了全面评估,展示了我们方法在定量和定性上的卓越性能。结果不仅反映了我们方法的强大有效性,还突出了其生成视觉上引人注目、接近照片般逼真质量的抠图的能力。本文的项目页面位于https://lightchaserx.github.io/matting-by-generation/。
现有的音乐字幕方法局限于生成简洁的全局描述短音乐片段,无法捕捉到音乐的细粒度特征和时域音乐变化。为了解决这些限制,我们提出了FUTGA,这是一个通过从生成增强学习细粒度音乐理解能力的模型,通过学习来自时间组合的生成增强。我们利用现有的音乐字幕数据集和大型语言模型(LLMs)来合成具有结构描述和时间边界的细粒度音乐字幕,适用于完整歌曲。通过提出的合成数据集增强,FUTGA 能够识别音乐在关键转换点的时间变化及其音乐功能,并为每个音乐片段生成详细描述。我们进一步引入了由 FUTGA 生成的完整音乐字幕数据集,作为 MusicCaps 和 Song Describer 数据集的增强。我们在几个下游任务上评估了自动生成的字幕,包括音乐生成和检索。实验表明了所生成字幕的质量以及所提出的音乐字幕方法在各种下游任务中取得的更好性能。我们的代码和数据集可以在 https://huggingface.co/JoshuaW1997/FUTGA 找到。
神经信息检索在高资源语言中迅速发展,但在日语等低资源语言中,数据稀缺等挑战阻碍了进展。因此,尽管多语言模型存在计算效率低和无法捕捉语言细微差别等问题,但在日语检索中占主导地位。虽然最近的多向量单语模型如JaColBERT已经缩小了这一差距,但它们在大规模评估中仍落后于多语言方法。本研究针对低资源环境中多向量检索器的次优训练方法,重点关注日语。我们系统评估和改进了JaColBERT的推理和训练设置的关键方面,更广泛地说,是多向量模型。我们通过一种新颖的检查点合并步骤进一步提高性能,展示了它是将微调的好处与原始检查点的泛化能力相结合的有效方法。基于我们的分析,我们引入了一种新颖的训练配方,产生了JaColBERTv2.5模型。JaColBERTv2.5仅有1.1亿参数,在4个A100 GPU上不到15小时的训练时间内,显著优于所有现有方法,在所有常见基准测试中达到了平均得分0.754,明显高于之前的最佳得分0.720。为了支持未来研究,我们公开提供我们的最终模型、中间检查点和所有使用的数据。
HAL(Hyper Articles en Ligne)是法国的国家出版物存储库,被大多数高等教育和研究机构用于其开放科学政策。作为一个数字图书馆,它是一个丰富的学术文献存储库,但其用于高级研究的潜力尚未充分利用。我们提出了HALvest,这是一个独特的数据集,弥合了引用网络和HAL上提交的论文全文之间的差距。我们通过过滤HAL以获取学术出版物来构建我们的数据集,结果约为70万份文档,涵盖了13个确定的领域中的34种语言,适用于语言模型训练,并产生了约165亿个标记(其中80亿为法语,70亿为英语,是最常见的语言)。我们将每篇论文的元数据转换为引用网络,生成一个有向异构图。该图包括在HAL上具有唯一标识的作者,以及所有开放提交的论文及其引用。我们使用数据集为作者归属提供了一个基准,实施了一系列用于链接预测的图表示学习的最新模型,并讨论了我们生成的知识图结构的实用性。