AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

INDUS: 科学技術応用のための効率的で効果的な言語モデル
INDUS: Effective and Efficient Language Models for Scientific Applications

May 17

ByBishwaranjan Bhattacharjee, Aashka Trivedi, Masayasu Muraoka, Muthukumaran Ramasubramanian, Takuma Udagawa, Iksha Gurung, Rong Zhang, Bharath Dandala, Rahul Ramachandran, Manil Maskey, Kayleen Bugbee, Mike Little, Elizabeth Fancher, Lauren Sanders, Sylvain Costes, Sergi Blanco-Cuaresma, Kelly Lockhart, Thomas Allen, Felix Grazes, Megan Ansdel, Alberto Accomazzi, Yousef El-Kurdi, Davis Wertheimer, Birgit Pfitzmann, Cesar Berrospi Ramis, Michele Dolfi, Rafael Teixeira de Lima, Panos Vegenas, S. Karthik Mukkavilli, Peter Staar, Sanaz Vahidinia, Ryan McGranaghan, Armin Mehrabian, Tsendgar Lee

一般領域のコーパスで訓練された大規模言語モデル（LLMs）は、自然言語処理（NLP）タスクにおいて顕著な成果を示してきました。しかし、過去の研究では、ドメイン特化型のコーパスを用いて訓練されたLLMsが専門的なタスクにおいてより優れた性能を発揮することが実証されています。この重要な知見に基づき、我々は地球科学、生物学、物理学、太陽物理学、惑星科学、天体物理学の各分野に特化したLLMsの包括的なスイートであるINDUSを開発しました。これらのモデルは、多様なデータソースから収集された精選された科学コーパスを用いて訓練されています。このスイートには以下のモデルが含まれます：（1）ドメイン固有の語彙とコーパスを用いて訓練されたエンコーダモデルで、自然言語理解タスクに対応します。（2）複数のソースから得られた多様なデータセットを用いて訓練された対照学習ベースの汎用テキスト埋め込みモデルで、情報検索タスクに対応します。（3）知識蒸留技術を用いて作成されたこれらのモデルの小型版で、レイテンシやリソース制約のあるアプリケーションに対応します。また、これらの多分野における研究を加速するために、新たに3つの科学ベンチマークデータセット（CLIMATE-CHANGE-NER（エンティティ認識）、NASA-QA（抽出型QA）、NASA-IR（IR））を作成しました。最後に、我々のモデルが、これらの新規タスクおよび関心領域の既存のベンチマークタスクにおいて、汎用エンコーダ（RoBERTa）および既存のドメイン特化型エンコーダ（SciBERT）を上回る性能を示すことを実証しました。

大規模言語モデルの効率的な推論のためのレイヤー凝縮KVキャッシュ
Layer-Condensed KV Cache for Efficient Inference of Large Language Models

May 17

ByHaoyi Wu, Kewei Tu

大規模なメモリ消費は、高スループットの大規模言語モデルを実世界のアプリケーションに展開する上で主要なボトルネックとなってきました。パラメータ数の多さに加えて、Transformerアーキテクチャにおける注意機構のキー・バリュー（KV）キャッシュも、特に深層言語モデルにおいて層数が多い場合に、大量のメモリを消費します。本論文では、少数の層のKVのみを計算してキャッシュするという新たな手法を提案し、メモリ消費を大幅に削減し、推論スループットを向上させます。大規模言語モデルにおける実験では、本手法が標準的なTransformerと比較して最大26倍のスループットを達成し、言語モデリングおよび下流タスクにおいて競争力のある性能を発揮することを示しています。さらに、本手法は既存のTransformerのメモリ節約技術と直交するため、それらを当モデルと簡単に統合でき、推論効率をさらに向上させることができます。コードはhttps://github.com/whyNLP/LCKVで公開されています。

観測的スケーリング則と言語モデル性能の予測可能性
Observational Scaling Laws and the Predictability of Language Model Performance

May 17

ByYangjun Ruan, Chris J. Maddison, Tatsunori Hashimoto

言語モデルの性能がスケールに応じてどのように変化するかを理解することは、ベンチマークやアルゴリズム開発において極めて重要です。スケーリング則はこの理解を構築するための一つのアプローチですが、多くの異なるスケールでモデルを訓練する必要があるため、その利用は限られています。我々は、モデルの訓練を回避し、代わりに約80の公開モデルからスケーリング則を構築する観察的アプローチを提案します。複数のモデルファミリーから単一のスケーリング則を構築することは、それらの訓練計算効率と能力に大きなばらつきがあるため困難です。しかし、これらのばらつきは、言語モデルの性能が低次元の能力空間の関数であり、モデルファミリーは訓練計算を能力に変換する効率のみが異なるという単純で一般化されたスケーリング則と一致することを示します。このアプローチを用いて、複雑なスケーリング現象の驚くべき予測可能性を示します：いくつかの創発現象が滑らかなシグモイド挙動に従い、小さなモデルから予測可能であることを示します；GPT-4のようなモデルのエージェント性能が、より単純な非エージェント的ベンチマークから正確に予測可能であることを示します；そして、Chain-of-ThoughtやSelf-Consistencyのような訓練後の介入の影響を、言語モデルの能力が向上し続ける中でどのように予測するかを示します。

参照トークンを備えたグラウンディング3D-LLM
Grounded 3D-LLM with Referent Tokens

May 16

ByYilun Chen, Shuai Yang, Haifeng Huang, Tai Wang, Ruiyuan Lyu, Runsen Xu, Dahua Lin, Jiangmiao Pang

3Dシーン理解に関する従来の研究では、特定のタスクに特化したモデルの開発や、タスク固有のファインチューニングが主に行われてきました。本研究では、Grounded 3D-LLMを提案し、3D大規模マルチモーダルモデル（3D LMMs）の可能性を探り、様々な3D視覚タスクを統一的生成フレームワーク内で統合することを目指します。このモデルは、シーン参照トークンを特別な名詞句として使用し、3Dシーンを参照することで、3Dデータとテキストデータが交互に現れるシーケンスを処理できるようにします。また、タスク固有の指示テンプレートを使用して、3D視覚タスクを言語形式に変換する自然なアプローチを提供します。参照トークンを後続の言語モデリングで活用するために、既存のオブジェクトラベルをブートストラップすることで、フレーズレベルでの詳細なシーンとテキストの対応を提供する大規模なグラウンディング言語データセットを整備しました。その後、Contrastive LAnguage-Scene Pre-training（CLASP）を導入し、このデータを効果的に活用することで、3D視覚と言語モデルを統合しました。我々の包括的な評価は、密なキャプショニングや3D QAなどのオープンエンドタスクに加えて、物体検出や言語グラウンディングなどのクローズドエンドタスクもカバーしています。複数の3Dベンチマークでの実験により、Grounded 3D-LLMの優れた性能と幅広い適用性が明らかになりました。コードとデータセットはプロジェクトページで公開されます：https://groundedscenellm.github.io/grounded_3d-llm.github.io。

大規模言語モデルにおける言語間転移学習のための動的データサンプラー
Dynamic data sampler for cross-language transfer learning in large language models

May 17

ByYudong Li, Yuhao Feng, Wen Zhou, Zhe Zhao, Linlin Shen, Cheng Hou, Xianxu Hou

大規模言語モデル（LLM）は、その幅広い応用可能性から自然言語処理（NLP）分野で大きな注目を集めています。しかし、英語以外の言語向けにLLMを訓練することは、大規模なコーパスの取得難易度や必要な計算リソースの観点から、大きな課題となっています。本論文では、これらの課題に対処し、コスト効率の良い方法で大規模な中国語言語モデルを訓練するために、クロスランガージ転移に基づくLLMであるChatFlowを提案します。我々は、中国語、英語、並列コーパスを組み合わせてLLaMA2モデルを継続的に訓練し、特に中国語言語モデルへの知識転移を促進するために、言語間表現の整合を図ります。さらに、動的データサンプラーを使用して、モデルを教師なし事前学習から教師あり微調整へと段階的に移行させます。実験結果は、我々のアプローチがモデルの収束を加速し、優れた性能を達成することを示しています。ChatFlowを人気のある中国語および英語のベンチマークで評価した結果、LLaMA-2-7Bで事後訓練された他の中国語モデルを上回る性能を示すことが確認されました。