翻訳付きの日次キュレーションされたAI研究論文
本論文では、自己注意機構の推論ボトルネックを緩和するため、階層的なグローバルからローカルへのモデリングを自己回帰型トランスフォーマーに適用したBlock Transformerアーキテクチャを提案する。自己注意機構を適用する際、すべての過去のシーケンスのキー・バリュー(KV)キャッシュを各デコードステップでメモリから取得する必要がある。これにより、このKVキャッシュの入出力(IO)がバッチ推論における重大なボトルネックとなる。我々は、これらのコストがグローバルコンテキストに自己注意を適用することに起因していることに気づき、グローバルモデリングの高コストなボトルネックを下位層に分離し、上位層では高速なローカルモデリングを適用する。下位層での残りのコストを緩和するため、入力トークンを固定サイズのブロックに集約し、この粗いレベルで自己注意を適用する。コンテキスト情報は単一の埋め込みに集約され、上位層がグローバル注意なしで次のトークンブロックをデコードできるようにする。グローバル注意のボトルネックから解放された上位層は、計算ハードウェアを最大限に活用して推論スループットを最大化できる。グローバルモジュールとローカルモジュールを活用することで、Block Transformerアーキテクチャは同等のパープレキシティを持つ従来のトランスフォーマーと比較して10~20倍の推論スループット向上を示す。本研究は、グローバルからローカルへのモデリングの新たな応用を通じて言語モデルの推論を最適化する新しいアプローチを導入する。コードはhttps://github.com/itsnamgyu/block-transformerで公開されている。
GPT-4Vのようなマルチモーダル大規模言語モデル(MLLM)の急速な発展は、人工汎用知能に向けた重要な一歩を記しています。既存の手法は主に、教師ありファインチューニング(SFT)を通じて視覚エンコーダと言語モデル(LLM)を整合させ、LLMにマルチモーダル能力を付与することに焦点を当てていますが、これによりMLLMの多言語対応能力がトレーニングプロセスの進行に伴って徐々に低下する傾向があります。私たちは、英語中心の画像-テキストペアで構成される不均衡なSFTデータセットが、非英語言語でのパフォーマンスを大幅に低下させることを実証的に発見しました。これは、SFTプロセス中に視覚エンコーダとLLMを多言語トークンと整合させることに失敗したためです。本論文では、言語レベルで視覚トークンの整合を駆動するためにテキストガイダンスを活用する新しい手法「Parrot」を紹介します。Parrotは、視覚トークンを多様な言語入力に条件付けし、Mixture-of-Experts(MoE)を使用して多言語トークンの整合を促進します。具体的には、非英語の視覚トークン整合を強化するために、初期視覚特徴とテキスト埋め込みを使用してクロスアテンションを計算し、その結果をMoEルーターに供給して最も関連性の高いエキスパートを選択します。選択されたエキスパートは、初期視覚トークンを言語固有の視覚トークンに変換します。さらに、現在この分野で多言語能力を評価するためのベンチマークが不足していることを考慮し、6言語、15カテゴリ、12,000問を含む大規模多言語マルチモーダルベンチマーク「MMMB」を収集し公開します。私たちの手法は、多言語MMBenchおよびMMMBで最先端のパフォーマンスを示すだけでなく、幅広いマルチモーダルタスクでも優れた結果を達成します。Parrotのソースコードとトレーニングデータセットは、一般公開される予定です。
モバイルデバイス操作タスクは、ますます人気のあるマルチモーダルAIアプリケーションシナリオとなっています。現在のマルチモーダル大規模言語モデル(MLLM)は、その学習データに制約され、効果的な操作アシスタントとして機能する能力を欠いています。代わりに、ツール呼び出しを通じて能力を強化するMLLMベースのエージェントが、このシナリオに徐々に適用されています。しかし、モバイルデバイス操作タスクにおける2つの主要なナビゲーション課題、タスク進行ナビゲーションとフォーカスコンテンツナビゲーションは、既存のシングルエージェントアーキテクチャの下で大幅に複雑化しています。これは、過度に長いトークンシーケンスとテキストと画像が交互に現れるデータ形式が性能を制限しているためです。これらのナビゲーション課題を効果的に解決するために、我々はモバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案します。このアーキテクチャは、計画エージェント、決定エージェント、およびリフレクションエージェントの3つのエージェントで構成されています。計画エージェントはタスクの進行を生成し、過去の操作のナビゲーションをより効率的にします。フォーカスコンテンツを保持するために、タスクの進行に応じて更新されるメモリユニットを設計しました。さらに、誤った操作を修正するために、リフレクションエージェントは各操作の結果を観察し、それに応じてミスを処理します。実験結果は、Mobile-Agent-v2がMobile-Agentのシングルエージェントアーキテクチャと比較して、タスク完了率で30%以上の向上を達成することを示しています。コードはhttps://github.com/X-PLUG/MobileAgentでオープンソース化されています。
既存の単一画像から3D生成を行う手法は、通常2段階のプロセスを採用しています。まず多視点画像を生成し、その後これらの画像を用いて3D再構成を行います。しかし、これら2つの段階を別々に学習すると、推論段階で大きなデータバイアスが生じ、再構成結果の品質に影響を及ぼします。本研究では、Ouroboros3Dと名付けた統一的な3D生成フレームワークを提案します。このフレームワークは、拡散ベースの多視点画像生成と3D再構成を再帰的拡散プロセスに統合しています。我々のフレームワークでは、これら2つのモジュールが自己条件付けメカニズムを通じて共同で学習され、互いの特性に適応してロバストな推論を可能にします。多視点ノイズ除去プロセス中、多視点拡散モデルは、前のタイムステップで再構成モジュールによってレンダリングされた3D認識マップを追加条件として使用します。3D認識フィードバックを備えた再帰的拡散フレームワークは、プロセス全体を統合し、幾何学的な一貫性を向上させます。実験結果は、我々のフレームワークがこれら2つの段階を分離した手法や、推論段階でそれらを組み合わせた既存手法を凌駕することを示しています。プロジェクトページ: https://costwen.github.io/Ouroboros3D/
Transformerは急速に音声分類における第一選択肢となり、CNNベースの手法を凌駕しています。しかし、Audio Spectrogram Transformer(AST)は、セルフアテンションによる二次スケーリングを示します。この二次的なセルフアテンションのコストを削減することは、魅力的な方向性です。最近、Mambaなどの状態空間モデル(SSM)が、言語や視覚タスクにおいてその可能性を示しています。本研究では、音声分類タスクにおいてセルフアテンションへの依存が本当に必要かどうかを探ります。セルフアテンションを一切使用せず、純粋にSSMベースの音声分類モデルであるAudio Mamba(AuM)を導入することで、この問いに取り組みます。AuMを6つの異なるベンチマークを含む様々な音声データセットで評価した結果、確立されたASTモデルと同等またはそれ以上の性能を達成しました。
レイアウト生成は、自動化されたグラフィックデザインを実現するための基盤であり、多様なマルチモーダルなデザイン要素の位置とサイズを視覚的に美しく、かつ制約に従って配置することを要求します。従来のアプローチは、大規模なアプリケーションに対して非効率的であるか、または多様なデザイン要件に対応する柔軟性に欠けていました。本研究では、多様なデザインタスクに対応するために、マルチモーダル大規模言語モデル(MLLM)を活用した自動化されたグラフィックレイアウト生成の統一フレームワークを提案します。対照的に、我々のデータ駆動型手法は、構造化されたテキスト(JSON形式)と視覚的指示チューニングを使用して、特定の視覚的およびテキスト的制約(ユーザー定義の自然言語仕様を含む)の下でレイアウトを生成します。我々は広範な実験を行い、公開されているマルチモーダルレイアウト生成ベンチマークで最先端(SOTA)の性能を達成し、本手法の有効性を実証しました。さらに、既存のデータセットが現実世界のグラフィックデザインの複雑さを捉える上での限界を認識し、より挑戦的なタスク(ユーザー制約付き生成と複雑なポスター)に対応するための2つの新しいデータセットを提案し、現実世界の設定における我々のモデルの有用性をさらに検証しました。このアプローチは、その優れたアクセシビリティと適応性により、大規模なグラフィックデザインタスクをさらに自動化します。コードとデータセットはhttps://github.com/posterllava/PosterLLaVAで公開されます。
先行研究では、ニューラル音声コーデックによって得られたオーディオトークンに対して生成型言語モデルを使用することで、ゼロショットテキスト音声合成を実証してきました。しかし、それらを低遅延シナリオに適応させることは依然として課題です。本論文では、LiveSpeechを提案します。これは、完全に自己回帰的な言語モデルに基づくゼロショットテキスト音声合成のアプローチであり、出力オーディオの低遅延ストリーミングを可能にします。単一のデコードステップ内で複数のトークン予測を可能にするために、(1)各フレームにおけるコードブックの貢献度を考慮し、難しいインスタンスに焦点を当てた適応型コードブック損失重みの使用、および(2)コードブックをグループ化し、グループを並列に処理することを提案します。実験結果は、提案モデルがコンテンツの正確性、話者類似性、音声品質、推論速度において最先端のベースラインと競合する結果を達成し、低遅延ストリーミングアプリケーションに適していることを示しています。
ビデオ拡散モデルの著しい進歩により、テキストからビデオ(T2V)合成の分野は大幅な進展を遂げています。しかし、既存のT2V合成モデルは複雑なモーションダイナミクスを正確に生成することが難しく、ビデオのリアリズムが低下するという課題があります。この問題を解決する一つの方法として、大量のデータを収集し、モデルをトレーニングすることが考えられますが、これは非常にコストがかかります。この問題を軽減するため、本論文では、典型的なT2V生成プロセスを検索ベースの生成パイプラインとして再構築します。モデルのトレーニングをスケールアップする代わりに、既存のビデオをモーション事前知識データベースとして活用します。具体的には、T2V生成プロセスを以下の2つのステップに分けます:(i) 与えられたプロンプト入力に対して、既存のテキスト-ビデオデータセットを検索し、プロンプトのモーションに最も近いテキストラベルを持つビデオを見つけます。このために、オブジェクトのモーション特徴を重視した独自の検索アルゴリズムを提案します。(ii) 検索されたビデオを処理し、モーション事前知識として蒸留して、事前にトレーニングされたベースT2Vモデルを微調整し、入力プロンプトを使用して目的のビデオを生成します。検索されたビデオから得られた事前知識を活用することで、生成されたビデオのモーションのリアリズムを向上させます。すべての操作は、単一のNVIDIA RTX 4090 GPUで完了できます。我々の手法を、多様なプロンプト入力に対して最先端のT2Vモデルと比較検証します。コードは公開予定です。
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)の最近の成功に不可欠でしたが、しばしば複雑で脆弱なプロセスです。古典的なRLHFフレームワークでは、まず人間の選好を表す報酬モデルが訓練され、それがオンライン強化学習(RL)アルゴリズムによってLLMを最適化するために使用されます。このような方法における顕著な問題は、報酬の過最適化または報酬ハッキングであり、学習された代理報酬モデルによって測定される性能が向上する一方で、真の品質が頭打ちになるか、むしろ悪化する現象です。Direct Preference Optimizationのような直接アライメントアルゴリズム(DAA)は、報酬モデリングの段階を回避することで、古典的なRLHFパイプラインの代替として登場しました。しかし、DAAは別個の代理報酬モデルを使用しないものの、依然として過最適化による悪化が一般的に見られます。DAAにおけるいわゆる報酬ハッキング現象は明確に定義されていませんが、我々は同様の傾向を発見しました:高いKL予算では、DAAアルゴリズムは古典的なRLHFと同様の劣化パターンを示します。特に、DAA手法は広範なKL予算にわたって劣化するだけでなく、データセットの1エポックが完了する前にもしばしば劣化することがわかりました。この研究では、広範な実験を通じて、DAAにおける報酬の過最適化またはハッキング問題を定式化し、その影響を目的、訓練体制、モデル規模にわたって探求します。
大規模言語モデル(LLMs)は、その創発的な能力により、複雑な対話理解、推論、コーディングなどのタスクで非常に成功を収めています。これらの創発的な能力は、マルチモーダリティを拡張することで、画像、音声、動画の処理能力を含むようになりました。一方、レコメンダーシステムは、情報探索やアイテム発見のニーズにおいて重要な役割を果たしてきました。最近では、LLMsをレコメンデーションに適用する試みが行われています。しかし、現在の試みにおける課題の一つは、基盤となるLLMが通常、レコメンダーシステムのデータ(主にユーザーインタラクションの信号を含む)で訓練されておらず、そのデータが公開されていないことが多い点です。もう一つの課題は、ユーザーインタラクションの信号が自然言語テキストとは異なるパターンを持つことが多く、LLMの訓練設定が、従来のレコメンダーシステム手法と比較して、インタラクション信号からより非自明な知識を学習できるかどうかが現時点では不明確である点です。最後に、異なるユースケースのために複数のLLMを訓練し、レコメンダーシステムのデータから学習する際に元の言語能力と推論能力を保持することが難しい点です。これら3つの制約に対処するため、我々はItem-Language Model(ILM)を提案します。ILMは、ユーザーインタラクション信号をエンコードするテキスト整合アイテム表現を生成するアイテムエンコーダと、事前訓練された知識を保持したままそれらのアイテム表現を理解できる凍結されたLLMで構成されます。我々は、言語整合の重要性とアイテムエンコーダにおけるユーザーインタラクション知識の重要性を実証するための広範な実験を行いました。
大規模言語モデル(LLM)は様々なタスクで印象的な能力を発揮しているが、その膨大なパラメータサイズのため、リソースが制約された環境での適用が制限されている。知識蒸留(KD)は、大規模な教師モデルからコンパクトな学生モデルへ専門知識を転送する有効な解決策を提供する。しかし、従来のKD技術はLLMに適用する際に特定の課題に直面しており、LLMの出力へのアクセス制限、教師と学生の能力差の大きさ、そして継承される誤較正問題などが挙げられる。本研究では、新たな選好ベースのLLM蒸留フレームワークであるPLaDを提案する。PLaDは、教師と学生の能力差を利用して、教師の出力が学生の出力よりも好まれる疑似選好ペアを生成する。その後、PLaDはランキング損失を活用して、学生のシーケンス尤度の推定を再較正し、学生が単に教師を模倣するのではなく、出力の相対的な品質を理解することに焦点を当てるよう導く。PLaDは、教師LLMの内部状態へのアクセスを必要とせず、学生の表現力の限界に対処し、学生の誤較正問題を緩和する。2つのシーケンス生成タスクと様々なLLMを用いた広範な実験を通じて、提案するPLaDフレームワークの有効性を実証する。
私たちは、2兆以上のトークンで事前学習されたコンパクトで効率的な1.1Bパラメータの言語モデル、Xmodel-LMを紹介します。下流タスクの最適化に基づいて中国語と英語のコーパスをバランスよく含む独自構築データセット(Xdata)で学習されたXmodel-LMは、その小さなサイズにもかかわらず、驚くべき性能を発揮します。特に、同規模の既存のオープンソース言語モデルを凌駕しています。私たちのモデルのチェックポイントとコードは、GitHubのhttps://github.com/XiaoduoAILab/XmodelLMで公開されています。