翻訳付きの日次キュレーションされたAI研究論文
Qwen2.5-1Mというモデルシリーズを紹介します。このシリーズは、コンテキスト長を100万トークンに拡張しています。以前の128Kバージョンと比較して、Qwen2.5-1Mシリーズは、長いコンテキストの事前トレーニングと事後トレーニングを通じて、著しく向上した長いコンテキスト能力を持っています。長いデータ合成、段階的な事前トレーニング、および多段階の教師付き微調整などの主要技術が使用され、長いコンテキストの性能を効果的に向上させると同時にトレーニングコストを削減します。 より広範なユーザーベースで長いコンテキストモデルの使用を促進するために、推論フレームワークを提示してオープンソース化します。このフレームワークには、モデルのコンテキスト長を少なくとも4倍、またはそれ以上拡張できる長さの外挿方法が含まれています。推論コストを削減するために、デプロイメントシナリオ向けに疎な注意メソッドとチャンク化されたプリフィル最適化を実装し、精度を向上させるための疎なリファインメントメソッドも採用しています。さらに、カーネル最適化、パイプライン並列処理、スケジューリング最適化などの推論エンジンの最適化について詳細に説明し、全体的な推論パフォーマンスを著しく向上させています。推論フレームワークを活用することで、Qwen2.5-1Mモデルは、100万トークンのコンテキストを持つシナリオで驚異的な3倍から7倍のプリフィル高速化を実現しています。このフレームワークは、オープンソースモデルを使用して長いコンテキスト処理を必要とするアプリケーションの開発に効率的かつ強力なソリューションを提供します。 Qwen2.5-1Mシリーズには、オープンソースモデルのQwen2.5-7B-Instruct-1MとQwen2.5-14B-Instruct-1M、およびAPIアクセスモデルのQwen2.5-Turboが含まれています。評価によると、Qwen2.5-1Mモデルは、長いコンテキストタスクで大幅に改善されており、短いコンテキストシナリオでのパフォーマンスを損なうことなく、特にQwen2.5-14B-Instruct-1Mモデルは、長いコンテキストタスクでGPT-4o-miniを大幅に上回り、8倍長いコンテキストをサポートしています。
Baichuan-Omni-1.5を紹介します。これはオムニモーダル理解能力だけでなく、エンドツーエンドのオーディオ生成機能も備えています。各モダリティの能力を損なうことなく、モダリティ間で流暢で高品質な相互作用を実現するために、3つの主要な側面の最適化を優先しました。まず、マルチモーダルデータの包括的なデータクリーニングおよび合成パイプラインを確立し、約500Bの高品質データ(テキスト、オーディオ、ビジョン)を取得しました。次に、オーディオトークナイザー(Baichuan-Audio-Tokenizer)が設計され、オーディオから意味情報と音響情報の両方を捉えることで、MLLMとのシームレスな統合と互換性向上を実現しました。最後に、マルチステージトレーニング戦略を設計し、段階的にマルチモーダルアラインメントとマルチタスクファインチューニングを統合することで、すべてのモダリティ間で効果的なシナジーを確保しました。Baichuan-Omni-1.5は、包括的なオムニモーダル機能において、GPT4o-miniやMiniCPM-o 2.6を含む現代のモデルをリードしています。特筆すべきは、さまざまなマルチモーダル医療ベンチマークにおいて、Qwen2-VL-72Bなどの主要モデルと比較可能な結果を達成していることです。
強化学習(RL)は、ほぼ普遍的な問題解決の枠組みを約束しています。しかしながら、実際には、RLアルゴリズムはしばしば特定のベンチマークに合わせて調整され、注意深く調整されたハイパーパラメータやアルゴリズムの選択に依存しています。最近、強力なモデルベースのRL手法は、ベンチマーク全体で印象的な一般的な結果を示していますが、複雑さが増し、実行時間が遅くなるというコストがかかり、より広範な適用が制限されています。本論文では、多様なドメインや問題設定に対応できる統一されたモデルフリーの深層RLアルゴリズムを見つける試みを行います。これを達成するために、モデルベースの表現を活用し、価値関数をおおよそ線形化することで、モデルベースのRLで使用されるより密なタスク目標を活用し、計画やシミュレートされた軌道に関連するコストを回避します。我々は、アルゴリズムであるMR.Qを、一連のハイパーパラメータでさまざまな一般的なRLベンチマークで評価し、ドメイン固有および一般的なベースラインに対して競争力のあるパフォーマンスを示し、汎用的なモデルフリーの深層RLアルゴリズム構築に向けた具体的な一歩を提供します。
既知の通り、マルチヘッドアーキテクチャにおけるハイブリッド二次およびサブ二次注意モデルは、Transformerおよび線形RNNモデルを凌駕し、これらの研究は主にKVの複雑さを削減し、効率を向上させることに焦点を当てています。表現力に関するさらなる研究では、純粋なネイティブRWKV-7注意に基づくQwen 2.5から抽出されたモデルシリーズを紹介し、これによりRNNをより表現豊かにし、Transformerを超えた状態追跡能力を示します。RWKV-6アーキテクチャに基づくQRWK 32Bで作業し、16台のAMD MI300X GPUを使用して全体の知識処理時間をわずか8時間に短縮する別の手法を採用し、Qwen 2.5の性能を維持します。実際、蒸留プロセスは、Qwenだけでなく任意のLLMを利用でき、より少ないトークンを持つ小さなLLMへのより大きなLLMからの知識移転を可能にします。より強力な基本モデルの構築に関する詳細なプロセスと洞察を説明し、共有します。これは継続的に更新される進行中の作業であることに注意してください。モデルのチェックポイントとソースコードは、以下のリンクから入手可能です:https://github.com/yynil/RWKVInside、https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1。
最近の音声生成の進歩は、大規模なトレーニングデータセットによって推進されてきました。しかし、現在のモデルは、正式な読み上げスタイルに限定されたオーディオブックデータセットに依存しているため、実世界の人間の音声に固有の自発性と変動性を捉えることには至っていません。このギャップを埋めるために、私たちはEmilia-Pipeを導入しました。これは、実世界のコンテキストでの自発的な人間の音声を捉えた貴重だが未開拓のデータから高品質のトレーニングデータを抽出するオープンソースの前処理パイプラインです。Emilia-Pipeを活用することで、私たちは、実世界の音声データから派生した最初の多言語音声生成データセットであるEmiliaを構築しました。このデータセットには、英語、中国語、ドイツ語、フランス語、日本語、韓国語の6言語で101,000時間以上の音声が含まれています。さらに、EmiliaをEmilia-Largeに拡張し、216,000時間を超えるデータセットとしました。これにより、Emiliaは、最大のオープンソース音声生成データセットとなりました。幅広い実験により、Emiliaが伝統的なオーディオブックデータセットよりも自発的で人間らしい音声を生成することで著しく優れており、実世界の人間の音声の多様な話者の音色や話し方を捉える性能に優れていることが示されています。さらに、この研究は、音声生成研究を推進するためにデータセットのサイズを拡大する重要性を強調し、Emiliaが多言語およびクロスリンガル音声生成において効果的であることを検証しています。
新しいモバイルハイブリッドビジョンネットワークの一族であるiFormerを提案し、モバイルアプリケーションにおけるレイテンシと精度の最適化に焦点を当てます。iFormerは、畳み込みの高速なローカル表現能力とセルフアテンションの効率的なグローバルモデリング能力を効果的に統合しています。ローカルな相互作用は、標準的な畳み込みネットワークであるConvNeXtを変換して、より軽量なモバイルネットワークを設計することから派生しています。新たに導入されたモバイル調節アテンションは、MHA内のメモリ集約型の操作を除去し、効率的な調節メカニズムを使用して動的なグローバル表現能力を向上させます。iFormerがさまざまなタスクで既存の軽量ネットワークを凌駕することを示す包括的な実験を行います。特に、iFormerは、iPhone 13上でわずか1.10ミリ秒のレイテンシでImageNet-1kで80.4\%の印象的なTop-1精度を達成し、最近提案されたMobileNetV4を同様のレイテンシ制約下で凌駕しています。さらに、当社の手法は、高解像度の入力に対してこれらのシナリオでモバイルデバイス上で低レイテンシを維持しながら、COCOオブジェクト検出、インスタンスセグメンテーション、ADE20kセマンティックセグメンテーションを含む下流タスクで大幅な改善を示しています。
言語モデルの能力を拡張することは、性能を向上させ、新しい機能を開放するための信頼性のあるアプローチであることが一貫して示されています。能力は主に、モデルパラメータの数と1例あたりの計算量によって定義されます。拡張には通常、両方を増やすことが含まれますが、これらの要因の正確な相互作用と全体的な能力への組み合わせ効果は完全に理解されていません。私たちは、スパースな専門家の混合(MoEs)の文脈でこの関係を探求します。これにより、モデルパラメータの数を増やすことなく1例あたりのFLOPsを比例して増やさないことが可能となります。非アクティブなパラメータの割合であるスパース度を変化させることが、事前学習およびダウンストリームの少数ショット評価中にモデルの性能にどのように影響するかを調査します。異なる制約条件(例:パラメータサイズと総トレーニング計算量)の下で、効率的なトレーニングとモデルの性能の両方を向上させる最適なスパース度が存在することがわかります。これらの結果は、MoEsのスケーリング法則におけるスパース度の影響をよりよく理解し、この分野の既存の研究を補完するものであり、より効率的なアーキテクチャを設計するための示唆を提供します。
テスト時の計算能力のスケーリングは、LLMの機能を向上させるための有望なアプローチです。ただし、テスト時の計算はさまざまな方法でスケーリングでき、異なるアプローチを効果的に組み合わせることは、現在も研究の活発な分野です。本研究では、SWE-benchデータセットからの実世界のGitHubの課題を解決する文脈で、この問題を探究します。当システムであるCodeMonkeysは、モデルがコードベースを編集する際に、テストスクリプトを生成し実行することを同時に行うことで、反復的に編集を行うことを可能にします。私たちは、各課題に対して多くのこれらのマルチターンの軌跡をサンプリングし、候補編集のコレクションを生成します。このアプローチにより、トラジェクトリごとの反復回数を増やすことで「シリアル」テスト時の計算をスケーリングし、「パラレル」テスト時の計算を増やすことで、前向きなコストを複数のダウンストリームサンプルに分散させ、LLMによる各ファイルの読み取りを通じて関連するコードベースのコンテキストを特定することができます。候補編集の選択には、モデル生成のテストを使用した投票と、選択に専用の最終マルチターン軌跡を組み合わせています。全体として、CodeMonkeysは、約2300米ドルの予算を使用して、SWE-bench Verifiedの課題の57.4%を解決しています。私たちの選択方法は、異なるソースからの候補を組み合わせるためにも使用できます。既存のトップSWE-bench Verified提出からの編集のアンサンブルを選択することで、66.2%のスコアを獲得し、アンサンブルの最良メンバーを単独で上回ります。私たちは、当システムのコードとデータを完全に公開しています:https://scalingintelligence.stanford.edu/pubs/codemonkeys。
ビジョン言語モデル(VLMs)は、わずか数年でコンピュータビジョンモデルの風景を劇的に変え、ゼロショット画像分類から画像キャプショニング、視覚的質問応答までの新しいアプリケーションの幅広い展開を可能にしました。純粋なビジョンモデルとは異なり、VLMsは言語プロンプトを介して直感的に視覚コンテンツにアクセスする方法を提供します。このようなモデルの広範な適用性は、これらが人間の視覚とも一致するかどうかを尋ねることを奨励します。具体的には、マルチモーダル融合を通じて人間由来の視覚バイアスをどの程度取り入れるか、または純粋なビジョンモデルからバイアスを単に継承するかに焦点を当てます。重要な視覚バイアスの1つは、テクスチャ対形状バイアス、または局所情報の優越性です。本論文では、人気のある幅広いVLMsにおけるこのバイアスを研究しています。興味深いことに、VLMsはしばしばビジョンエンコーダーよりも形状にバイアスがかかっていることがわかり、視覚バイアスがある程度テキストを介して多モーダルモデルで調整されていることを示唆しています。テキストが実際に視覚バイアスに影響を与える場合、これは視覚入力だけでなく言語を介して視覚バイアスを誘導できる可能性があることを示唆しています。これは、広範な実験を通じて確認される仮説です。たとえば、プロンプトだけで形状バイアスを49%から72%まで誘導することができます。現時点では、形状に対する強い人間のバイアス(96%)は、すべてのテストされたVLMsにとって到達困難な状態です。
状態空間モデル(State Space Models、SSMs)は、シーケンシャルモデリングにおいてTransformerに対する効率的な代替手段として登場していますが、モダリティ固有の特徴を活用できないため、マルチモーダル事前学習における性能が制限されています。本研究では、Mixture-of-Mambaという新しいSSMアーキテクチャを提案し、Mambaブロックのモダリティに対するパラメータ化を介してモダリティに意識した疎さを導入します。Mixture-of-Transformers(W. Liangら、arXiv:2411.04996; 2024)を基盤とし、モダリティに意識した疎さの利点をSSMsに拡張しつつ、計算効率を維持します。我々は、Transfusion(交互に配置されたテキストと連続画像トークンに拡散損失を伴う)、Chameleon(交互に配置されたテキストと離散画像トークン)、および音声を組み込んだ拡張された三モダリティフレームワークの3つのマルチモーダル事前学習設定でMixture-of-Mambaを評価します。Mixture-of-Mambaは、訓練コストを大幅に削減しつつ、一貫して同等の損失値に早期に到達します。Transfusion設定では、Mixture-of-Mambaは1.4Bスケールで訓練FLOPsの34.76%のみを使用して同等の画像損失を達成します。Chameleon設定では、Mixture-of-Mambaは1.4Bスケールで42.50%のFLOPsで同等の画像損失を達成し、65.40%のFLOPsで同等のテキスト損失を達成します。三モダリティ設定では、Mixture-of-Mambaは1.4Bスケールで24.80%のFLOPsで音声損失に対応します。我々の削減研究は、射影コンポーネントの分離効果の相乗効果を示し、共同分離が個々の修正よりも大きな利益をもたらすことを明らかにしています。これらの結果は、モダリティに意識した疎さを柔軟で効果的な設計原則として確立し、TransformersからSSMsへの影響を拡大し、マルチモーダル事前学習において新たな基準を設定しています。我々のコードは、https://github.com/Weixin-Liang/Mixture-of-Mamba でアクセス可能です。
Classifier-Free Guidance(CFG)はさまざまなビジュアル生成モデルでデフォルトの手法となっていますが、サンプリング時に条件付きモデルと非条件付きモデルの両方からの推論が必要です。私たちは、ガイド付きサンプリングから解放されたビジュアルモデルを構築することを提案します。その結果として得られるアルゴリズム、Guidance-Free Training(GFT)は、サンプリングを単一モデルに削減しながらCFGと同等の性能を達成し、計算コストを半減させます。事前に訓練されたCFGネットワークに依存する従来の蒸留ベースの手法とは異なり、GFTはゼロから直接トレーニングを可能にします。GFTは実装が簡単で、CFGと同じ最尤推定目的を保持しており、主に条件付きモデルのパラメータ化が異なります。GFTの実装には、既存のコードベースにほとんどの変更が必要であり、ほとんどの設計選択肢とハイパーパラメータはCFGから直接継承されます。私たちが行った5つの異なるビジュアルモデルにまたがる幅広い実験は、GFTの効果と汎用性を実証しています。拡散、自己回帰、マスク予測モデリングの領域を横断して、GFTは一貫して、CFGのベースラインと比較して類似またはより低いFIDスコアを達成し、同様の多様性-忠実度のトレードオフを実現しますが、ガイダンスフリーです。コードはhttps://github.com/thu-ml/GFTで入手可能です。
大規模言語モデル(LLM)におけるカスタマイズ可能な役割演技、またはキャラクター汎化としても知られるものは、役割演技対話エージェントの開発と展開において、その汎用性とコスト効率の高さからますます注目されています。本研究では、大規模データ合成アプローチを探求し、LLMにキャラクター汎化能力を付与することを目的としています。まず、Persona Hubからのペルソナを使用して大規模なキャラクタープロファイルを合成し、その後、応答の書き直しと応答生成の2つの戦略を探求し、キャラクターに合った指示応答を作成します。我々の合成指示チューニングデータがキャラクター汎化の効果を検証するために、LLaMA-3 8Bモデルを用いた教師ありファインチューニング(SFT)を行います。最も優れたモデルは、元のLLaMA-3 8B Instructモデルを強化し、役割演技対話においてGPT-4oモデルと同等の性能を達成します。我々は、公共の研究を支援するために、合成キャラクターと指示チューニング対話を公開します。
大規模なデコーダーのみの言語モデルの優越性が、シーケンス処理における基本的な効率の利点にもかかわらず、エンコーダー・デコーダー構造を薄暗くしています。10億個以下のパラメータを持つ小規模言語モデル(SLMs)について、GPU、CPU、およびNPUプラットフォームを横断した体系的な分析では、エンコーダー・デコーダー構造は、エッジデバイス上でデコーダーのみのモデルと比較して、初トークンの待ち時間が47%低く、スループットが4.7倍高いことが明らかになりました。これらの利点は、エンコーダー・デコーダーの一度の入力処理と理解と生成段階の効率的な分離に帰因される可能性があります。 大規模でスケーラブルなデコーダーのみの教師からの能力を活用しつつ、エンコーダー・デコーダーモデルがその構造上の利点を保持することを可能にする新しい知識蒸留フレームワークを紹介します。これにより、さまざまなタスクで平均パフォーマンスポイントが最大6ポイント向上し、入力と出力の分布が異なる処理アプローチから利益を得られる非対称なシーケンスタスクにおいて大きな利点が得られます。 RoPE(Rotary Positional Embeddings)やビジョンエンコーダーなどの最新技術と組み合わせると、エンコーダー・デコーダー構造が、リソースに制約のある環境で能力のある言語モデルを展開するためのより実用的な道筋を提供することが、私たちの体系的な調査で示されています。私たちの調査結果は、デコーダーのみのスケーリングに対する優勢なトレンドに疑問を投げかけ、パラメータ予算が低下するにつれて、特にコンピューターの効率が最重要視されるオンデバイスおよびエッジ展開において、アーキテクチャの選択がますます重要になることを示しています。
Feasible Learning(FL)を紹介します。これは、モデルが各トレーニングサンプルの損失を制限する実行可能性問題を解決することでトレーニングされるサンプル中心の学習パラダイムです。汎用的な経験リスク最小化(ERM)フレームワークとは対照的に、ERMが平均パフォーマンスを最適化するのに対し、FLは個々のデータポイントでの満足できるパフォーマンスを要求します。所定のパフォーマンス閾値を満たす任意のモデルが妥当なFLソリューションであるため、最適化アルゴリズムの選択とそのダイナミクスが、生成されるソリューションの特性を形作る上で重要な役割を果たします。特に、トレーニング中に各サンプルの重要性を動的に再重み付けする原始-双対アプローチを研究しています。実践で意味のある閾値を設定する課題に対処するために、最小ノルムのスラック変数を組み込んだFLの緩和を紹介します。画像分類、年齢回帰、および大規模言語モデルにおける選好最適化を含む経験的分析により、FLを介してトレーニングされたモデルは、ERMに比べて改善されたテール動作を示しながら、平均パフォーマンスにほとんど影響を与えないことが示されました。