AI研究论文每日精选

每日精选AI研究论文及翻译

INDUS：科学应用中的有效和高效语言模型
INDUS: Effective and Efficient Language Models for Scientific Applications

May 17

ByBishwaranjan Bhattacharjee, Aashka Trivedi, Masayasu Muraoka, Muthukumaran Ramasubramanian, Takuma Udagawa, Iksha Gurung, Rong Zhang, Bharath Dandala, Rahul Ramachandran, Manil Maskey, Kayleen Bugbee, Mike Little, Elizabeth Fancher, Lauren Sanders, Sylvain Costes, Sergi Blanco-Cuaresma, Kelly Lockhart, Thomas Allen, Felix Grazes, Megan Ansdel, Alberto Accomazzi, Yousef El-Kurdi, Davis Wertheimer, Birgit Pfitzmann, Cesar Berrospi Ramis, Michele Dolfi, Rafael Teixeira de Lima, Panos Vegenas, S. Karthik Mukkavilli, Peter Staar, Sanaz Vahidinia, Ryan McGranaghan, Armin Mehrabian, Tsendgar Lee

在通用领域语料库上训练的大型语言模型（LLMs）在自然语言处理（NLP）任务上展现出显著成果。然而，先前的研究表明，使用面向特定领域语料库训练的LLMs在专业任务上表现更好。受到这一关键洞察的启发，我们开发了INDUS，这是一套专为地球科学、生物学、物理学、太阳物理学、行星科学和天体物理学领域量身定制的LLMs套件，使用从多样数据源中提取的策划科学语料库进行训练。这套模型包括：（1）使用领域特定词汇和语料库训练的编码器模型，用于处理自然语言理解任务，（2）基于对比学习的通用文本嵌入模型，使用来自多个来源的多样数据集进行训练，用于处理信息检索任务，以及（3）使用知识蒸馏技术创建的这些模型的较小版本，用于处理具有延迟或资源约束的应用。我们还创建了三个新的科学基准数据集，分别是CLIMATE-CHANGE-NER（实体识别）、NASA-QA（抽取式问答）和NASA-IR（信息检索），以加速这些跨学科领域的研究。最后，我们展示了我们的模型在这些新任务以及感兴趣领域现有基准任务上均优于通用编码器（RoBERTa）和现有领域特定编码器（SciBERT）。

用于大型语言模型高效推理的层压缩KV缓存
Layer-Condensed KV Cache for Efficient Inference of Large Language Models

May 17

ByHaoyi Wu, Kewei Tu

在实际应用中，巨大的内存消耗一直是部署高吞吐量大型语言模型的主要瓶颈。除了参数数量庞大外，变压器架构中用于注意力机制的键-值（KV）缓存在内存消耗方面也占据着重要地位，特别是对于深度语言模型中层数较多的情况。本文提出了一种新颖的方法，仅计算和缓存少量层的KVs，从而显著节省内存消耗并提高推理吞吐量。我们在大型语言模型上的实验表明，我们的方法比标准变压器实现了高达26倍的吞吐量，并在语言建模和下游任务中表现出竞争力。此外，我们的方法与现有的变压器节省内存技术正交，因此可以轻松地将它们与我们的模型集成在一起，进一步提高推理效率。我们的代码可在https://github.com/whyNLP/LCKV 获取。

观察性标度定律与语言模型性能的可预测性
Observational Scaling Laws and the Predictability of Language Model Performance

May 17

ByYangjun Ruan, Chris J. Maddison, Tatsunori Hashimoto

了解语言模型性能随规模变化的情况对基准和算法开发至关重要。缩放定律是建立这种理解的一种方法，但需要跨多个不同规模训练模型的要求限制了它们的使用。我们提出了一种替代的观察方法，绕过模型训练，而是从约80个公开可用模型中构建缩放定律。从多个模型系列构建单一缩放定律具有挑战性，因为它们的训练计算效率和能力存在很大变化。然而，我们展示了这些变化与一个简单的广义缩放定律一致，其中语言模型性能是低维能力空间的函数，而模型系列仅在将训练计算转化为能力的效率上有所不同。利用这种方法，我们展示了复杂缩放现象的惊人可预测性：我们展示了几种新兴现象遵循平滑的S形行为并且可以从小模型中预测；我们展示了诸如GPT-4等模型的代理性能可以从更简单的非代理基准精确预测；我们展示了如何预测后训练干预（如“思维链”和自一致性）对语言模型能力持续改进的影响。

具有指代标记的基于实体的3D-LLM
Grounded 3D-LLM with Referent Tokens

May 16

ByYilun Chen, Shuai Yang, Haifeng Huang, Tai Wang, Ruiyuan Lyu, Runsen Xu, Dahua Lin, Jiangmiao Pang

先前关于3D场景理解的研究主要开发了针对特定任务的专门模型，或者需要特定任务的微调。在本研究中，我们提出了基于3D大型多模型（3D LMMs）的Grounded 3D-LLM，探索了将各种3D视觉任务整合到统一生成框架中的潜力。该模型使用场景指代标记作为特殊名词短语来引用3D场景，从而能够处理交错使用3D和文本数据的序列。它提供了一种自然的方法，通过使用特定任务的指令模板，将3D视觉任务转化为语言格式。为了促进在后续语言建模中使用指代标记，我们已经筛选了大规模的基于场景的语言数据集，通过引导现有对象标签，提供了更精细的场景-文本对应关系，达到短语级别。随后，我们引入了对比语言-场景预训练（CLASP）来有效利用这些数据，从而将3D视觉与语言模型整合。我们的全面评估涵盖了像密集字幕生成和3D问答等开放式任务，以及像对象检测和语言定位等封闭式任务。跨多个3D基准测试的实验显示了Grounded 3D-LLM的领先性能和广泛适用性。代码和数据集将在项目页面发布：https://groundedscenellm.github.io/grounded_3d-llm.github.io。

大型语言模型中用于跨语言迁移学习的动态数据采样器
Dynamic data sampler for cross-language transfer learning in large language models

May 17

ByYudong Li, Yuhao Feng, Wen Zhou, Zhe Zhao, Linlin Shen, Cheng Hou, Xianxu Hou

大型语言模型（LLMs）由于其广泛的应用领域，在自然语言处理（NLP）领域引起了极大关注。然而，为非英语语言训练LLMs存在重大挑战，主要是由于获取大规模语料库和必要的计算资源的困难。本文提出了ChatFlow，一种基于跨语言转移的LLM，以便以经济高效的方式训练大型中文语言模型来解决这些挑战。我们采用中文、英文和平行语料库的混合，持续训练LLaMA2模型，旨在对齐跨语言表示，并促进知识转移，特别是针对中文语言模型。此外，我们使用动态数据采样器，逐渐将模型从无监督预训练过渡到监督微调。实验结果表明，我们的方法加速了模型收敛，并实现了卓越的性能。我们在流行的中文和英文基准上评估了ChatFlow，结果表明它优于在LLaMA-2-7B上进行后训练的其他中文模型。