翻訳付きの日次キュレーションされたAI研究論文
Mixtral 8x7Bを紹介します。これはSparse Mixture of Experts(SMoE)言語モデルです。MixtralはMistral 7Bと同じアーキテクチャを持ちますが、各層が8つのフィードフォワードブロック(つまりエキスパート)で構成されている点が異なります。各トークンに対して、各層でルーターネットワークが2つのエキスパートを選択し、それらの出力を組み合わせます。各トークンは2つのエキスパートしか見ませんが、選択されるエキスパートは各タイムステップで異なる可能性があります。その結果、各トークンは47Bのパラメータにアクセスできますが、推論時には13Bのアクティブなパラメータしか使用しません。Mixtralは32kトークンのコンテキストサイズでトレーニングされ、すべての評価ベンチマークでLlama 2 70BおよびGPT-3.5を上回るか同等の性能を示します。特に、Mixtralは数学、コード生成、多言語ベンチマークでLlama 2 70Bを大幅に上回ります。また、指示に従うようにファインチューニングされたモデル、Mixtral 8x7B - Instructも提供します。これは人間によるベンチマークでGPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70B - chatモデルを上回ります。ベースモデルと指示モデルの両方がApache 2.0ライセンスの下でリリースされています。
状態空間モデル(SSMs)は、逐次モデリングの分野においてTransformerの支配的な地位に挑戦する有力な候補となっています。一方で、Mixture of Experts(MoE)は、Transformerベースの大規模言語モデル(LLMs)を大幅に改善し、最近の最先端オープンソースモデルにも採用されています。我々は、SSMsのスケーリングの可能性を最大限に引き出すためには、MoEと組み合わせるべきであると提案します。これを、最近のSSMベースのモデルであるMambaで実証します。MambaはTransformerに匹敵する驚異的な性能を達成しています。我々のモデルであるMoE-Mambaは、MambaとTransformer-MoEの両方を上回ります。特に、MoE-MambaはMambaと同等の性能を、2.2倍少ない訓練ステップで達成しつつ、Transformerに対するMambaの推論性能の向上を維持します。
会話型AIの研究において、ChatGPTのようなモデルに代表されるように、パラメータ数を大幅に増やしたモデルの開発が顕著なトレンドとなっています。これらの大規模モデルは、より優れたチャット応答を生成する傾向がありますが、その一方で膨大な計算資源とメモリを必要とします。本研究では、重要な疑問を探求します:より小規模なモデルを組み合わせることで、単一の大規模モデルと同等またはそれ以上の性能を達成できるのか?我々は「ブレンディング」と呼ばれる手法を提案します。これは複数のチャットAIを統合するシンプルでありながら効果的な方法です。実証的な証拠から、特定の小規模モデルを相乗的にブレンドすることで、より大規模なモデルを凌駕または同等の能力を発揮できる可能性が示唆されています。例えば、中規模の3つのモデル(6B/13Bパラメータ)を統合するだけで、ChatGPT(175B+パラメータ)のようなはるかに大規模なモデルの性能指標に匹敵またはそれを上回ることができます。この仮説は、Chai研究プラットフォームにおいて大規模なユーザーベースを用いたA/Bテスト手法により、30日間にわたって厳密に検証されました。結果は、「ブレンディング」戦略が、計算需要の急増を伴わずにチャットAIの効率を向上させるための有効なアプローチとしての可能性を強調しています。
長文脈の活用は、大規模言語モデルにとって大きな課題となっている。これは、モデルのコンテキストウィンドウ長が限られているためである。コンテキストウィンドウはファインチューニングによって拡張できるが、トレーニングと推論の両方でかなりのコストがかかり、LLMの本来の能力に悪影響を及ぼす可能性がある。本研究では、Activation Beaconを提案する。これは、LLMの生のアクティベーションをよりコンパクトな形式に凝縮することで、限られたコンテキストウィンドウ内でより長い文脈を認識できるようにするものである。Activation Beaconは、LLMのプラグアンドプレイモジュールとして導入される。短い文脈に対するLLMの本来の能力を完全に維持しつつ、長い文脈を処理する新たな能力を拡張する。さらに、長い文脈を処理するために短いスライディングウィンドウを使用し、トレーニングと推論の両方で競争力のあるメモリ効率と時間効率を実現する。Activation Beaconは、多様な凝縮比率を持つビーコンの混合を条件とした自己回帰タスクによって学習される。この手法により、短いシーケンスデータのみを使用してわずか10Kステップで効率的にトレーニングでき、8xA800 GPUマシン1台で9時間未満の消費時間で済む。実験的研究では、Activation BeaconがLlama-2-7Bのコンテキスト長を100倍(4Kから400K)に拡張し、長文脈生成と理解タスクの両方で優れた結果を達成できることが示されている。我々のモデルとコードはBGEリポジトリで公開予定である。
テキストから3Dを生成する手法が近年進歩しているにもかかわらず、信頼性の高い評価指標が顕著に欠如している。既存の指標は通常、入力テキストと生成物の整合性など、単一の基準に焦点を当てている。これらの指標は、異なる評価基準に一般化する柔軟性に欠けており、人間の好みと必ずしも一致しない場合がある。ユーザー選好調査を実施することは、適応性と人間の好みに沿った結果を提供する代替手段である。しかし、ユーザー調査は規模を拡大するのに非常にコストがかかる。本論文では、テキストから3Dを生成するモデルのための自動的で汎用的、かつ人間の好みに沿った評価指標を提案する。この目的のために、まずGPT-4Vを使用して評価用のプロンプトを生成するプロンプトジェネレータを開発し、これをテキストから3Dモデルを比較するための入力として使用する。さらに、GPT-4Vにユーザー定義の基準に従って2つの3Dアセットを比較する方法を設計する。最後に、これらのペアワイズ比較結果を使用して、これらのモデルにEloレーティングを割り当てる。実験結果は、提案する指標が異なる評価基準において人間の好みと強く一致することを示唆している。
本論文では、大規模言語モデル(LLM)を活用して話者分離システムの出力を後処理するフレームワーク「DiarizationLM」を紹介します。提案するフレームワークを用いることで、話者分離された文字起こし結果の可読性向上や、単語レベルの話者分離誤り率(WDER)の低減など、様々な目標を達成することが可能です。このフレームワークでは、自動音声認識(ASR)システムと話者分離システムの出力をコンパクトなテキスト形式で表現し、それをプロンプトとしてオプションでファインチューンされたLLMに入力します。LLMの出力は、所望の改善を施した精緻化された話者分離結果として利用できます。後処理ステップとして、このフレームワークは既存のASRおよび話者分離システムに再学習を必要とせず、容易に適用することが可能です。実験結果では、ファインチューンされたPaLM 2-Sモデルが、Fisher電話会話データセットでWDERを相対25.9%、Callhome英語データセットで相対31%削減できることを示しています。
大規模言語モデル(LLM)はコード関連タスクにおいて大きな進歩を遂げてきたが、多くのLLMはコードを単なるシーケンスとして扱い、その構造的な性質を無視している。本論文では、Abstract Syntax Tree(AST)を活用した新しい事前学習パラダイムであるAST-T5を紹介する。これにより、コード生成、トランスパイル、理解が強化される。動的計画法を用いたAST-Aware Segmentationはコード構造を保持し、AST-Aware Span Corruption目的関数はモデルに様々なコード構造を再構築する能力を与える。他のモデルとは異なり、AST-T5は複雑なプログラム解析やアーキテクチャ変更を必要としないため、任意のエンコーダ-デコーダTransformerとシームレスに統合できる。評価結果では、AST-T5は様々なコード関連タスクにおいて、同規模の言語モデルを一貫して上回ることを示している。構造認識により、AST-T5は特にコード間タスクで強力であり、Bugs2FixタスクではCodeT5を2ポイント、CodeXGLUEのJava-C#トランスパイルでは3ポイント上回る正確一致スコアを達成した。我々のコードとモデルはhttps://github.com/gonglinyuan/ast_t5で公開されている。
私たちはCRUXEval(Code Reasoning, Understanding, and eXecution Evaluation)を紹介します。これは800のPython関数(3-13行)からなるベンチマークです。各関数には入力と出力のペアが付属しており、入力予測と出力予測という2つの自然なタスクが導かれます。まず、この実行ベンチマークを生成するための汎用的なレシピを提案し、これを用いて将来のバリエーションを作成できるようにします。次に、20のコードモデルをこのベンチマークで評価し、HumanEvalで高得点を記録した多くの最近のモデルが、このベンチマークでは同じような改善を示さないことを発見します。さらに、単純なCoT(Chain of Thought)やファインチューニングのスキームがベンチマークのパフォーマンスを向上させるが、完全に解決するには程遠いことを示します。最良の設定であるGPT-4 with CoTは、入力予測と出力予測でそれぞれ75%と81%のpass@1を達成します。一方、Code Llama 34Bは入力予測と出力予測でそれぞれ50%と46%のpass@1を達成し、オープンソースモデルとクローズドソースモデルの間のギャップを浮き彫りにします。どのモデルもCRUXEvalを完璧にこなすには程遠いため、GPT-4が単純なプログラムで一貫して失敗する例を提供し、そのコード推論能力と改善すべき点を考察します。
事前学習モデルの出現は、自然言語処理(NLP)やコンピュータビジョンからリレーショナルデータセットに至るまで、幅広い分野に大きな影響を与えてきました。従来、これらのモデルは、下流タスクでのファインチューニングを通じて評価されてきました。しかし、これではこれらのモデルをより効率的かつ効果的に評価する方法が問題となります。本研究では、各エンティティに関連するメタ特徴を世界知識の源として活用し、モデルから得られるエンティティ表現を利用する新たなアプローチを探ります。私たちは、これらの表現とメタ特徴の一貫性を、事前学習モデルを評価するための指標として使用することを提案します。私たちの手法の有効性は、リレーショナルデータセットを持つモデル、大規模言語モデル、画像モデルなど、さまざまなドメインで実証されています。
自動3Dコンテンツ作成パイプラインの需要が高まる中、単一画像から3Dオブジェクトを生成するための様々な3D表現が研究されてきました。その中でも、3Dガウシアンスプラッティングベースのモデルは、その優れたレンダリング効率により、最近3D再構築と生成の両方で優れた成果を上げています。画像から3Dを生成するための3Dガウシアンスプラッティングアプローチは、多くの場合最適化ベースであり、計算コストの高いスコア蒸留ステップを多数必要とします。これらの課題を克服するため、我々は単一画像から即座に3Dガウシアンを生成するAmortized Generative 3D Gaussianフレームワーク(AGG)を提案します。これにより、インスタンスごとの最適化が不要となります。中間的なハイブリッド表現を利用し、AGGは3Dガウシアンの位置とその他の外観属性の生成を分解して共同最適化を行います。さらに、まず3Dデータの粗い表現を生成し、その後3Dガウシアン超解像モジュールでアップサンプリングするカスケードパイプラインを提案します。我々の手法は、既存の最適化ベースの3Dガウシアンフレームワークや他の3D表現を利用したサンプリングベースのパイプラインと比較評価され、AGGは質的・量的に競争力のある生成能力を示しつつ、数桁高速であることが確認されました。プロジェクトページ: https://ir1d.github.io/AGG/
本技術レポートでは、30億、70億、120億パラメータの大規模言語モデル(LLM)群であるTeleChatを紹介します。TeleChatは、事前学習済みの言語モデルに加え、人間の嗜好に合わせてファインチューニングされたチャットモデルを含んでいます。TeleChatはまず、英語と中国語の多様なテキストを含む大規模なコーパス(数兆トークン規模)で事前学習されます。その後、本レポートで詳細に説明する方法論に従い、人間の嗜好に合わせてファインチューニングが行われます。TeleChatの性能は、言語理解、数学、推論、コード生成、知識ベースの質問応答など、さまざまなタスクで評価されました。その結果、TeleChatは類似サイズの他のオープンソースモデルと比較して、幅広い公開ベンチマークで同等の性能を達成することが示されました。LLMを活用した今後の研究と応用を支援するため、TeleChatの70億および120億パラメータモデルのファインチューニング済みチェックポイントとコード、および事前学習データの一部を公開コミュニティにリリースします。