翻訳付きの日次キュレーションされたAI研究論文
本論文では、事前学習済み大規模言語モデル(LLM)のコンテキストサイズを限定的な計算コストで拡張する効率的なファインチューニング手法、LongLoRAを提案する。通常、長いコンテキストサイズでのLLMの学習は計算コストが高く、長時間の学習と大量のGPUリソースを必要とする。例えば、コンテキスト長8192での学習は、2048の場合と比べてセルフアテンションレイヤーで16倍の計算コストを要する。本論文では、LLMのコンテキスト拡張を2つの側面から高速化する。一方では、推論時には密なグローバルアテンションが必要だが、モデルのファインチューニングは疎なローカルアテンションによって効率的かつ効果的に行うことができる。提案するシフトショートアテンションは、コンテキスト拡張を可能にし、バニラアテンションを用いたファインチューニングと同等の性能を維持しながら、計算コストを大幅に削減する。特に、学習時にはわずか2行のコードで実装可能であり、推論時にはオプションとして使用できる。他方では、コンテキスト拡張のためのパラメータ効率的なファインチューニング体制を再検討する。特に、埋め込みと正規化が学習可能であるという前提の下で、コンテキスト拡張のためのLoRAが良好に機能することを発見した。LongLoRAは、7B/13Bから70BまでのLLaMA2モデルにおいて、様々なタスクで強力な実証結果を示す。LongLoRAは、LLaMA2 7Bを4kコンテキストから100kに、またはLLaMA2 70Bを32kに、単一の8x A100マシンで拡張する。LongLoRAは、モデルのコンテキストを拡張しながら元のアーキテクチャを維持し、FlashAttention-2などの既存の技術との互換性がある。さらに、LongLoRAを実用的にするために、教師ありファインチューニング用のデータセット、LongQAを収集した。これには3,000以上の長いコンテキストの質問-回答ペアが含まれている。
Transformerは最初、自然言語処理分野で登場し、その後コンピュータビジョン領域に移行し、視覚タスクで優れた性能を発揮しました。しかし、最近ではRetentive Network(RetNet)がTransformerに取って代わる可能性を秘めたアーキテクチャとして登場し、NLPコミュニティで広く注目を集めています。そこで、RetNetのアイデアを視覚領域に転用することで、視覚タスクでも優れた性能を発揮できるかどうかという疑問が生じます。この疑問に答えるため、私たちはRetNetとTransformerを組み合わせたRMTを提案します。RetNetにインスパイアされたRMTは、視覚バックボーンに明示的な減衰を導入し、空間距離に関連する事前知識を視覚モデルにもたらします。この距離に関連する空間事前知識により、各トークンが注目できるトークンの範囲を明示的に制御できます。さらに、グローバルモデリングの計算コストを削減するため、このモデリングプロセスを画像の2つの座標軸に沿って分解します。豊富な実験により、私たちのRMTがさまざまなコンピュータビジョンタスクで卓越した性能を発揮することが実証されています。例えば、RMTはわずか4.5G FLOPsでImageNet-1kにおいて84.1%のTop1-accを達成します。私たちの知る限り、すべてのモデルの中で、RMTは類似のサイズで同じ戦略で訓練された場合に最高のTop1-accを達成しています。さらに、RMTは物体検出、インスタンスセグメンテーション、セマンティックセグメンテーションなどの下流タスクにおいて、既存の視覚バックボーンを大幅に上回ります。私たちの研究はまだ進行中です。
生成型大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な進歩を遂げてきた。しかし、これらの進歩は翻訳タスク、特に中規模モデルサイズ(7Bまたは13Bパラメータ)においては反映されておらず、従来の教師ありエンコーダ-デコーダ翻訳モデルに依然として遅れを取っている。これまでの研究では、これらの中型LLMの翻訳能力を向上させようと試みられてきたが、その成果は限定的であった。本研究では、翻訳タスクに特化した新しいファインチューニング手法を提案し、従来の翻訳モデルが依存する大量の並列データを必要としないアプローチを実現する。我々のアプローチは、単一言語データでの初期ファインチューニングと、少量の高品質な並列データでの後続ファインチューニングという2段階のファインチューニングから構成される。この戦略を通じて開発されたLLMを、Advanced Language Model-based trAnslator(ALMA)として紹介する。基盤モデルとしてLLaMA-2を使用した結果、WMT'21(2方向)およびWMT'22(8方向)のテストデータセットにおける10の翻訳方向において、ゼロショット性能から平均12 BLEUおよび12 COMET以上の改善を達成できることが示された。この性能は、これまでのすべての研究を大幅に上回り、7Bまたは13Bパラメータのみでありながら、NLLB-54BモデルやGPT-3.5-text-davinci-003をも凌駕するものである。この手法は、機械翻訳における新しいトレーニングパラダイムの基盤を確立するものである。
現実世界の様々なアプリケーションで広く使用されている大規模言語モデル(LLM)と人々がどのように相互作用するかを研究することは、ますます重要になっています。本論文では、25の最先端LLMとの100万件の現実世界の会話を含む大規模データセットであるLMSYS-Chat-1Mを紹介します。このデータセットは、VicunaデモとChatbot Arenaウェブサイト上で、21万のユニークIPアドレスから収集されました。データセットの内容について、キュレーションプロセス、基本統計、トピック分布を含む概要を提供し、その多様性、独創性、規模を強調します。GPT-4と同等の性能を持つコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同等の性能を持つ指示追従モデルのトレーニング、挑戦的なベンチマーク質問の作成という4つのユースケースを通じて、その汎用性を実証します。このデータセットがLLMの能力を理解し、進歩させるための貴重なリソースとなることを信じています。データセットはhttps://huggingface.co/datasets/lmsys/lmsys-chat-1mで公開されています。
大規模言語モデル(LLM)は、自然言語理解の限界を押し上げ、優れた問題解決能力を示してきました。しかし、その大きな成功にもかかわらず、既存のオープンソースLLM(例:LLaMA-2)の多くは、複雑な推論手順を要する数学的問題の解決において、まだ満足のいくレベルには達していません。このギャップを埋めるため、我々は数学的推論に特化したファインチューニングされた言語モデル「MetaMath」を提案します。具体的には、まず追加の知識なしに、複数の視点から問題を書き換えることで数学的問題をブートストラップし、新たなデータセット「MetaMathQA」を作成します。その後、LLaMA-2モデルをMetaMathQAでファインチューニングします。数学的推論のための2つの人気ベンチマーク(GSM8KとMATH)での実験結果は、MetaMathが一連のオープンソースLLMを大幅に上回ることを示しています。我々のMetaMath-7Bモデルは、GSM8Kで66.4%、MATHで19.4%を達成し、同じサイズの最先端モデルをそれぞれ11.5%と8.7%上回りました。特に、MetaMath-70BはGSM8Kで82.3%の精度を達成し、GPT-3.5-Turboをわずかに上回りました。我々は、MetaMathQAデータセット、さまざまなモデルサイズのMetaMathモデル、およびトレーニングコードを公開し、広く利用できるようにしました。
3D視覚的接地は、家庭用ロボットにとって重要なスキルであり、環境に基づいてナビゲーション、物体操作、質問への回答を可能にします。既存のアプローチは、大量のラベル付きデータに依存したり、複雑な言語クエリの処理に制限があったりすることが多いですが、私たちはLLM-Grounderを提案します。これは、ゼロショット、オープン語彙、大規模言語モデル(LLM)ベースの新しい3D視覚的接地パイプラインです。LLM-Grounderは、LLMを利用して複雑な自然言語クエリを意味的構成要素に分解し、OpenSceneやLERFなどの視覚的接地ツールを使用して3Dシーン内の物体を特定します。その後、LLMは提案された物体間の空間的および常識的関係を評価し、最終的な接地決定を行います。私たちの手法は、ラベル付きのトレーニングデータを一切必要とせず、新しい3Dシーンや任意のテキストクエリに一般化できます。ScanReferベンチマークでLLM-Grounderを評価し、最先端のゼロショット接地精度を実証しました。私たちの研究結果は、LLMが特に複雑な言語クエリに対して接地能力を大幅に向上させることを示しており、LLM-Grounderがロボティクスにおける3D視覚言語タスクの効果的なアプローチであることを示しています。ビデオとインタラクティブデモはプロジェクトウェブサイトhttps://chat-with-nerf.github.io/でご覧いただけます。
本研究では、ブール関数のエンドツーエンドの記号回帰を実行するために訓練された最初のTransformerアーキテクチャであるBoolformerを紹介します。まず、クリーンな真理値表が与えられた場合、訓練中に見られなかった複雑な関数に対してコンパクトな式を予測できることを示します。次に、不完全でノイズの多い観測値が与えられた場合に近似式を見つける能力を実証します。Boolformerを幅広い実世界の二値分類データセットで評価し、古典的な機械学習手法に対する解釈可能な代替手段としての可能性を示します。最後に、遺伝子調節ネットワークのダイナミクスをモデル化する広範なタスクに適用します。最近のベンチマークを使用して、Boolformerが最先端の遺伝的アルゴリズムと競争力があり、数桁の高速化を実現することを示します。私たちのコードとモデルは公開されています。
私たちは、新しい最先端の3Bパラメータオープンソース言語モデル「BTLM-3B-8K」を紹介します。BTLM-3B-8Kは、SlimPajamaデータセットの627Bトークンを用いて、2,048と8,192のコンテキスト長を混合してトレーニングされました。BTLM-3B-8Kは、下流タスクにおいて既存のすべての3Bパラメータモデルを2-5.5%上回り、一部の7Bパラメータモデルとも競争力があります。さらに、BTLM-3B-8Kは優れた長文コンテキスト性能を提供し、8,192トークンのコンテキスト長までのタスクでMPT-7B-8KとXGen-7B-8Kを上回ります。私たちは、クリーンで重複排除されたSlimPajamaデータセットでモデルをトレーニングし、μPハイパーパラメータとスケジュールを積極的に調整し、ALiBi位置埋め込みを使用し、SwiGLU非線形性を採用しました。 Hugging Faceで最も人気のあるモデルは7Bパラメータであり、ユーザーが7Bモデルの品質とサイズの比率を好んでいることを示しています。7Bパラメータモデルを3Bパラメータにコンパクト化し、性能への影響を最小限に抑えることは重要なマイルストーンです。BTLM-3B-8Kは、4ビット精度でわずか3GBのメモリを必要とし、7Bモデルよりも2.5倍少ない推論計算量で、モバイルやエッジデバイスでの強力な言語モデルへのアクセスを可能にします。BTLM-3B-8Kは、Hugging FaceでApache 2.0ライセンスの下で利用可能です: https://huggingface.co/cerebras/btlm-3b-8k-base。