翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデルの推論時の計算リソースをスケーリングすることは、推論ベンチマークにおいて印象的な性能を示すことが実証されています。しかし、既存の推論時スケーリング評価では、推論システムが与えられたあらゆる質問に対して常に回答を提供すべきであるという強い仮定が置かれています。これでは、モデルが自身の回答に自信を持っているかどうか、また常に回答を提供することが適切かどうかといった懸念が見落とされています。これらの懸念に対処するため、我々は推論中に信頼度スコアを抽出し、モデルの回答を閾値処理します。推論時の計算予算を増やすことで、モデルがより多くの質問に正しく回答できるだけでなく、正しい回答に対する自信も高まることがわかりました。さらに、我々は評価時のゼロリスク回答という現在のパラダイムを拡張し、非ゼロの回答リスクレベルを考慮した設定を検討し、これらの設定下での評価報告のための方法論を提案します。
既存のエンドツーエンド音声大規模言語モデル(LLM)は、通常、大規模な注釈付きデータに依存して訓練されていますが、データ効率の良い訓練については深く議論されていません。我々は、音声とテキストの間にある2つの根本的な問題、すなわち表現空間のギャップとシーケンス長の不一致に焦点を当てます。これらの問題を解決するために、効率的な訓練戦略と新しいアーキテクチャを活用したSoundwaveを提案します。結果は、Soundwaveが、訓練データのわずか50分の1を使用して、音声翻訳とAIR-Bench音声タスクにおいて先進的なQwen2-Audioを凌駕することを示しています。さらに分析により、Soundwaveが会話中にその知性を保持していることが明らかになりました。本プロジェクトはhttps://github.com/FreedomIntelligence/Soundwaveで公開されています。
最近の一連の研究では、トークンのシーケンスをより短い実数値ベクトルのシーケンスに圧縮し、トークン埋め込みやキー値キャッシュの代わりに入力として使用する問題に取り組んでいます。これらのアプローチにより、既存の言語モデルにおける計算量を削減することが可能です。強力なモデルをエンコーダーとして使用しているにもかかわらず、達成可能な最大の無損失圧縮率は通常x10を超えません。この事実は非常に興味深いものです。なぜなら、理論的には、16ビット精度と控えめなベクトルサイズであっても、大きな実数値ベクトルの最大情報容量は提示されたレートをはるかに超えているからです。本研究では、エンコーダーをサンプルごとの最適化手順に置き換えることで、圧縮の限界を探ります。x1500までの圧縮率を持つベクトルが存在することを示し、既存の解決策と実現可能な解決策との間に2桁のギャップがあることを明らかにします。さらに、圧縮の限界は入力の長さではなく、削減すべき不確実性の量、すなわち、何の条件付けもないこのシーケンスにおけるクロスエントロピー損失によって決定されることを実証的に示します。得られた限界は、入力埋め込みの理論的な容量とその実際の利用との間に大きなギャップがあることを強調し、モデル設計における最適化の余地が大きいことを示唆しています。
ビデオ生成のための基盤モデルの継続的な発展は、様々な応用へと進化しており、被写体一貫性のあるビデオ生成はまだ探求段階にあります。これを「Subject-to-Video」と呼び、参照画像から被写体要素を抽出し、テキスト指示を通じて被写体一貫性のあるビデオを生成します。我々は、Subject-to-Videoの本質が、テキストと画像の二重モーダルプロンプトのバランスを取り、それによってテキストと視覚コンテンツを深く同時に整合させることにあると考えています。この目的のために、単一および複数の被写体参照の両方に対応する統一的なビデオ生成フレームワークであるPhantomを提案します。既存のテキストからビデオ、画像からビデオのアーキテクチャを基盤として、テキストと画像の共同注入モデルを再設計し、テキスト-画像-ビデオの三つ組データを通じてクロスモーダルアラインメントを学習させます。特に、人間の生成における被写体一貫性を強調し、既存のID保持ビデオ生成をカバーしながら、強化された利点を提供します。プロジェクトのホームページはこちらです https://phantom-video.github.io/Phantom/。
我々は、デジタルと物理の両世界におけるマルチモーダルAIエージェントタスクに対応する基盤モデル「Magma」を提案する。Magmaは、視覚言語(VL)モデルの大幅な拡張であり、後者の言語理解能力(言語的知能)を保持するだけでなく、視覚空間世界における計画と行動(空間時間的知能)の能力を備え、UIナビゲーションからロボット操作に至るエージェントタスクを遂行する。エージェント能力を付与するため、Magmaは画像、動画、ロボティクスデータにわたる大量の異種データセットで事前学習されており、画像内の操作可能な視覚オブジェクト(例:GUI内のクリック可能なボタン)は行動の基盤付けのためにSet-of-Mark(SoM)でラベル付けされ、動画内のオブジェクトの動き(例:人間の手やロボットアームの軌跡)は行動計画のためにTrace-of-Mark(ToM)でラベル付けされている。大規模な実験により、SoMとToMが高い相乗効果を発揮し、Magmaモデルの空間時間的知能の獲得を促進することが示されており、これは図1に示すように幅広いタスクの基盤となっている。特に、MagmaはUIナビゲーションとロボット操作タスクにおいて、これらのタスクに特化して設計された従来のモデルを上回る新たな最先端の結果を達成している。画像や動画関連のマルチモーダルタスクにおいても、Magmaはより大規模なデータセットで訓練された人気の大規模マルチモーダルモデルと比較しても遜色ない性能を示している。我々は、再現性のためにモデルとコードをhttps://microsoft.github.io/Magmaで公開している。
離散カテゴリカルデータのモデリングにおいて、拡散モデルは自己回帰モデルに代わる有望な手法として登場しました。しかし、離散データ空間で直接動作する拡散モデルは、離散状態間の遷移中に信号が失われるため、反復的な精緻化の力を十分に活用できていません。既存の離散データ向け連続拡散モデルは、離散アプローチと比較して性能が限られており、両者の間の不明確な関連性が離散データ向け拡散モデルの発展を制約しています。本研究では、基盤となるカテゴリカル分布の幾何学を組み込んだ言語モデリング向け連続拡散モデルを提案します。統計多様体上の離散拡散と連続フローの間の関連性を確立し、この類推に基づいて、従来の離散拡散モデルを一般化する拡散プロセスのシンプルな設計を導入します。さらに、放射対称性に基づくシミュレーションフリーの学習フレームワークと、多様体の高次元性に対処するシンプルな技術を提案します。言語モデリングベンチマークや他のモダリティにおける包括的な実験により、本手法が既存の離散拡散モデルを上回り、自己回帰モデルの性能に迫ることが示されました。コードはhttps://github.com/harryjo97/RDLM{https://github.com/harryjo97/RDLM}で公開されています。
近年のマルチモーダル大規模言語モデル(MLLMs)は驚異的な性能を達成していますが、二次的な計算複雑性、増大するKey-Valueキャッシュの要件、および分離されたビジョンエンコーダへの依存により、展開に課題を抱えています。我々はmmMambaを提案します。これは、適度な学術的計算リソースを使用して既存のMLLMsから段階的に蒸留することで、線形複雑性のネイティブマルチモーダル状態空間モデルを開発するフレームワークです。我々のアプローチは、事前に訓練されたRNNベースのLLMやビジョンエンコーダを必要とせずに、訓練済みのデコーダのみのMLLMsを線形複雑性のアーキテクチャに直接変換することを可能にします。我々は、訓練済みのTransformerからMambaを切り出すためのシーディング戦略と、TransformerからMambaへ知識を効果的に転移しつつマルチモーダル能力を保持する三段階の蒸留レシピを提案します。我々の手法は、TransformerとMambaの層を組み合わせた柔軟なハイブリッドアーキテクチャもサポートし、カスタマイズ可能な効率と性能のトレードオフを実現します。TransformerベースのデコーダのみのHoVLEから蒸留されたmmMamba-linearは、既存の線形および二次複雑性のVLMsに対して競争力のある性能を達成し、mmMamba-hybridはさらに性能を大幅に向上させ、HoVLEの能力に接近します。103Kトークンにおいて、mmMamba-linearはHoVLEと比較して20.6倍の高速化と75.8%のGPUメモリ削減を実現し、mmMamba-hybridは13.5倍の高速化と60.2%のメモリ節約を達成します。コードとモデルはhttps://github.com/hustvl/mmMambaで公開されています。
人間の嗜好を理解することは、基盤モデルの改善やパーソナライズされたAIシステムの構築において極めて重要です。しかし、嗜好は本質的に多様で複雑であるため、従来の報酬モデルではその全範囲を捉えることが困難です。細かい粒度の嗜好データは役立つものの、その収集はコストがかかり、スケーリングが難しいという課題があります。本論文では、細かいアノテーションを必要とせずに、二値比較から多様な人間の嗜好を抽出する新しいアプローチであるDecomposed Reward Models (DRMs)を提案します。私たちの重要な洞察は、人間の嗜好をベクトルとして表現し、主成分分析(PCA)を用いて分析することです。DRMsは、好まれる応答と拒否される応答の埋め込み差分のデータセットを構築し、嗜好の異なる側面を捉える直交基底ベクトルを特定します。これらの分解された報酬は、異なるユーザー要件に合わせて柔軟に組み合わせることができ、従来の報酬モデルに比べて解釈可能性とスケーラビリティに優れた代替手段を提供します。私たちは、DRMsが有用性、安全性、ユーモアなどの意味のある嗜好次元を効果的に抽出し、追加のトレーニングなしで新しいユーザーに適応することを実証します。この結果は、DRMsがパーソナライズされた解釈可能なLLMアラインメントのための強力なフレームワークであることを示しています。
RNNが以前のトークンを単一の隠れ状態に圧縮するのに対し、Transformerはすべての以前のトークンに直接アテンションを向けることができます。しかし、標準的なTransformerは直前の層からの表現のみを使用します。本論文では、この設計選択が表現の崩壊を引き起こし、最適でない性能につながることを示します。この問題に対処するため、我々はLayer-Integrated Memory(LIMe)を提案します。これは、モデルの全体的なメモリフットプリントを維持しつつ、より早期の層からの隠れ状態へのアクセスを可能にすることで表現能力を拡張する、シンプルでありながら強力なアプローチです。様々なアーキテクチャと異なるルックアップメカニズムを用いた広範な実験を通じて、我々は幅広いタスクにおいて一貫した性能向上を実証します。さらに、学習された表現のダイナミクスの分析と深さ方向の回路の探求により、LIMeがどのように層間の情報を統合するかを明らかにし、今後の研究に向けた有望な方向性を示します。
マルチモーダルな金融データでファインチューニングされた大規模言語モデル(LLM)は、様々な金融タスクにおいて印象的な推論能力を発揮してきました。しかし、取引のようなインタラクティブな金融市場における多段階で目標指向のシナリオでは、意思決定を改善するために複雑なエージェント的アプローチが必要となるため、しばしば苦戦しています。この課題に対処するため、我々はFLAG-Traderを提案します。これは、言語処理(LLMによる)と勾配駆動型強化学習(RL)ポリシー最適化を統合したアーキテクチャであり、部分的にファインチューニングされたLLMがポリシーネットワークとして機能し、事前学習された知識を活用しながらパラメータ効率的なファインチューニングを通じて金融領域に適応します。取引報酬によって駆動されるポリシー勾配最適化を通じて、我々のフレームワークは取引におけるLLMの性能を向上させるだけでなく、他の金融領域タスクでの結果も改善します。これらの改善を検証するための広範な実証的証拠を提示します。
空間知能は、エンボディードAIにおいて重要な要素であり、ロボットが環境を理解し相互作用することを促進します。近年の進歩により、視覚言語モデル(VLM)が物体の位置や位置関係を認識する能力は向上しましたが、細かな操作を必要とするタスクにおいて鍵となる物体の向きを正確に理解する能力はまだ不足しています。この制限を克服するには、幾何学的推論だけでなく、向きを表現するための直感的で表現力豊かな方法が必要です。この文脈において、自然言語は標準的な座標系よりも柔軟な表現空間を提供し、指示に従うロボットシステムに特に適していると提案します。本論文では、自然言語を用いて物体の向きを定義する「セマンティックオリエンテーション」の概念を紹介します。これは参照フレームを必要としない方法で(例:USBの「差し込み」方向やナイフの「取っ手」方向)、幾何学的理解と機能的な意味論を結びつけます。これをサポートするため、セマンティックオリエンテーションが注釈された大規模な3Dモデルデータセット「OrienText300K」を構築しました。セマンティックオリエンテーションをVLMシステムに統合することで、ロボットは位置と向きの制約を伴う操作アクションを生成できるようになります。シミュレーションと実世界での広範な実験により、本アプローチがロボットの操作能力を大幅に向上させることが実証されました(例:Open6DORでの48.7%の精度、SIMPLERでの74.9%の精度)。
大規模言語モデル(LLM)を実世界のアプリケーションに展開する際には、有害なユーザープロンプトを検出しブロックするための堅牢なセーフティガードモデルが必要です。大規模なセーフティガードモデルは高い性能を発揮しますが、その計算コストは非常に大きくなります。これを軽減するために、小型化された蒸留モデルが使用されますが、これらのモデルは、大規模モデルが正確な予測を提供する「難しい」事例においてしばしば性能が低下します。我々は、多くの入力が小型モデルで確実に処理可能であり、大規模モデルの能力を必要とするのはごく一部の事例であることを観察しました。この観察に基づき、我々はSafeRouteを提案します。これは、難しい事例と容易な事例を区別するバイナリルーターです。本手法では、ルーターが難しいと判断したデータに対してのみ大規模なセーフティガードモデルを選択的に適用し、大規模モデルのみを使用する場合と比較して効率を向上させつつ精度を維持します。複数のベンチマークデータセットにおける実験結果は、適応的なモデル選択が計算コストと安全性の性能のトレードオフを大幅に改善し、関連するベースラインを上回ることを示しています。
大規模言語モデル(LLMs)は、訓練時のスケーリングによって優れた性能を達成し、推論時に効果的な推論を行うことで、テスト時のスケーリングがさらにその能力を向上させます。しかし、推論の規模が大きくなるにつれて、既存のテスト時スケーリング手法は蓄積された履歴情報に悩まされ、計算リソースを浪費するだけでなく、効果的な推論を妨げます。この問題を解決するために、複雑な推論プロセスはしばしば独立したサブ質問のシーケンスを解決することで達成され、各サブ質問は自己完結的で検証可能であることに注目しました。これらのサブ質問は本質的に原子質問であり、蓄積された履歴ではなく主に現在の状態に依存します。これはマルコフ過程における無記憶遷移に似ています。この観察に基づいて、我々は「思考の原子」(Atom of Thoughts, AoT)を提案します。ここでは、推論プロセスにおける各状態遷移は、現在の質問を依存関係に基づく有向非巡回グラフに分解し、そのサブ質問を収縮して新しい原子質問状態を形成することから成ります。この分解・収縮プロセスは、直接解決可能な原子質問に到達するまで繰り返され、質問状態間のマルコフ遷移を自然に実現します。さらに、これらの原子質問は既存のテスト時スケーリング手法にシームレスに統合でき、AoTを推論能力を向上させるプラグイン拡張として機能させることができます。6つのベンチマークでの実験により、AoTがスタンドアロンのフレームワークとしてもプラグイン拡張としても有効であることが示されました。特に、HotpotQAにおいて、gpt-4o-miniに適用した場合、AoTは80.6%のF1スコアを達成し、o3-miniを3.4%、DeepSeek-R1を10.6%上回りました。コードはhttps://github.com/qixucen/atomで公開されます。
複雑な推論タスクを解決するには、視覚的理解、ドメイン知識の検索、数値計算、多段階の推論が関与する場合があります。既存の手法では、大規模言語モデル(LLM)を外部ツールで拡張していますが、特定の専門領域に限定されていたり、ツールの種類が限られていたり、追加のトレーニングデータを必要とする場合があります。本論文では、OctoToolsを紹介します。これは、トレーニング不要でユーザーフレンドリー、かつ容易に拡張可能なオープンソースのエージェントフレームワークであり、多様なドメインにわたる複雑な推論に取り組むように設計されています。OctoToolsは、ツールの機能をカプセル化する標準化されたツールカード、高レベルおよび低レベルの計画を行うプランナー、ツールの使用を実行するエグゼキュータを導入しています。私たちは、OctoToolsの汎用性を16の多様なタスク(MathVista、MMLU-Pro、MedQA、GAIA-Textを含む)で検証し、GPT-4oに対して平均9.3%の精度向上を達成しました。さらに、OctoToolsは、同じツールセットが与えられた場合、AutoGen、GPT-Functions、LangChainを最大10.6%上回りました。包括的な分析とアブレーションを通じて、OctoToolsはタスク計画、効果的なツール使用、多段階の問題解決において優位性を示しています。
大規模な画像-テキストペアで事前学習を行った後、Contrastive Language-Image Pre-training (CLIP)は多様なベンチマークで有望な性能を示します。しかし、マルチモーダルなインタリーブドキュメントなどの非ペアデータの大部分は、視覚-言語表現学習において十分に活用されていません。これらの非ペアドキュメントを最大限に活用するために、まず高品質な画像とテキストを抽出するReal-World Data Extractionパイプラインを確立します。次に、各画像を複数の意味的に関連する現実的なテキストと効率的に関連付ける階層的検索手法を設計します。さらに、細粒度の視覚情報を強化するために、合成テキスト生成のための画像意味拡張生成モジュールを提案します。また、データセットの多様性を向上させるために意味的バランスサンプリング戦略を採用し、ロングテール概念の学習を改善します。これらの革新に基づいて、現実的および合成テキストを組み合わせたRealSynデータセットを構築し、15M、30M、100Mの3つのスケールで提供します。大規模な実験により、RealSynが視覚-言語表現学習を効果的に推進し、強力なスケーラビリティを示すことが実証されています。RealSynで事前学習したモデルは、複数の下流タスクで最先端の性能を達成します。今後の研究を促進するため、RealSynデータセットと事前学習済みモデルの重みをhttps://github.com/deepglint/RealSynで公開しています。
大規模言語モデル(LLM)におけるテスト時スケーリングの登場、特にOpenAIのo1シリーズに代表されるものは、推論時の計算リソース割り当てをスケーリングすることで推論能力を向上させてきた。QwQ、Deepseek-R1(R1)、LIMOなどの後継モデルはこれらの進歩を再現しているが、これらのモデルが真にテスト時スケーリング能力を有しているかどうかは未だ十分に検証されていない。本研究では、これらのo1類似モデルの長いCoT(Chain-of-Thought)が必ずしも精度を向上させるわけではなく、むしろ同じ問題に対する正解は不正解よりも短いことが多いことを発見した。さらに調査を進めると、この現象はモデルの自己修正能力と密接に関連していることが明らかになった。長いCoTにはより多くの自己修正が含まれており、これがしばしば性能の低下を引き起こす。次に、QwQ、R1、LIMOに対して逐次スケーリングと並列スケーリングの戦略を比較し、並列スケーリングがより優れたカバレッジとスケーラビリティを達成することを確認した。これらの知見に基づき、並列スケーリング戦略とCoTの長さ特性を組み合わせた「最短多数決(Shortest Majority Vote)」を提案し、従来の多数決アプローチと比較してモデルのテスト時スケーラビリティを大幅に改善した。
大規模言語モデル(LLM)は、ファインチューニング後に下流タスクに適応しやすい一方で、この適応性はプロンプトの頑健性を損なうことが多く、わずかなプロンプトの変化でも性能が大幅に低下する可能性があります。この問題に対処するため、我々はPrompt-Agnostic Fine-Tuning(PAFT)を提案します。これは、ファインチューニング中にプロンプトを動的に調整するシンプルかつ効果的なアプローチであり、モデルが特定のプロンプト形式に過剰適合するのではなく、タスクの基本原理を学習することを促します。PAFTは2段階で動作します。まず、多様で意味のある合成候補プロンプトのセットを構築します。次に、ファインチューニング中にこのセットからプロンプトをランダムにサンプリングし、動的なトレーニング入力を生成します。多様なデータセットとLLMを用いた広範な実験により、PAFTでトレーニングされたモデルは、未見のプロンプトを含む広範なプロンプトに対して強い頑健性と汎化性能を示すことが実証されました。この強化された頑健性は、モデルの性能と推論速度を向上させながら、トレーニング効率を維持します。アブレーションスタディは、PAFTの有効性をさらに裏付けています。
近年、大規模言語モデル(LLM)を活用してテキスト記述からシンボリックな世界モデルを生成することに対する関心が高まっています。世界モデリングの文脈でLLMは広く研究されてきましたが、これまでの研究では評価のランダム性、間接的な指標への依存、限られたドメイン範囲といった課題に直面していました。これらの課題を解決するため、我々は計画領域定義言語(PDDL)に基づく新しいベンチマーク、Text2Worldを提案します。これは数百の多様なドメインを特徴とし、実行ベースの多基準評価を用いることで、より堅牢な評価を実現します。Text2Worldを用いて現在のLLMをベンチマークした結果、大規模強化学習で訓練された推論モデルが他のモデルを上回ることがわかりました。しかし、最も性能の高いモデルでも、世界モデリングの能力には限界があることが示されました。これらの知見を基に、テスト時のスケーリング、エージェント訓練など、LLMの世界モデリング能力を向上させるための有望な戦略を検討します。Text2Worldが重要なリソースとして、LLMを世界モデルとして活用する今後の研究の基盤となることを期待しています。プロジェクトページはhttps://text-to-world.github.io/で公開されています。
Transformerベースの大規模言語モデル(LLM)は、長文脈生成において驚異的な性能を発揮します。文脈長の拡大に伴い、推論時のLLMのメモリ使用量は、キー・バリューキャッシュ(KVキャッシュ)に偏って増加しています。本論文では、HEADINFERを提案します。これは、KVキャッシュをCPU RAMにオフロードしつつ、GPU上でどのTransformer層のKVキャッシュも完全に保持する必要を回避するものです。HEADINFERは、細粒度のヘッド単位のオフロード戦略を採用し、GPU上では選択的なアテンションヘッドのKVキャッシュのみを保持し、アテンション出力を動的に計算します。ルーフライン分析を通じて、HEADINFERが計算効率を維持しつつ、メモリ使用量を大幅に削減することを示します。Llama-3-8Bモデルを用いて100万トークンのシーケンスで評価を行った結果、KVキャッシュのGPUメモリ使用量を128GBから1GBに、総GPUメモリ使用量を207GBから17GBに削減し、BF16ベースライン推論と比較して92%の削減を達成しました。特に、HEADINFERは、近似手法を用いることなく、24GBメモリを搭載した単一のコンシューマーGPU(例:NVIDIA RTX 4090)上で8Bモデルの400万トークン推論を可能にします。
我々は、Transformerにおける残差接続の限界を克服し、層間情報の流れを強化するためのシンプルかつ効果的な手法として、MUltiway Dynamic Dense (MUDD)接続を提案する。既存の静的で共有された接続重みを持つ密接続アプローチとは異なり、MUDDはTransformerブロックの各シーケンス位置における隠れ状態と、分離された入力ストリーム(クエリ、キー、値、または残差)に応じて動的に接続重みを生成する。MUDD接続は、あらゆるTransformerアーキテクチャにシームレスに統合され、MUDDFormerを構築することができる。広範な実験により、MUDDFormerが言語モデリングにおいて、様々なモデルアーキテクチャとスケールでTransformerを大幅に上回り、1.8倍から2.4倍の計算量で訓練されたTransformerと同等の性能を達成することが示された。特に、MUDDPythia-2.8Bは、事前学習のパープレキシティと下流タスクにおいてPythia-6.9Bに匹敵し、5ショット設定ではPythia-12Bにも匹敵する性能を発揮しながら、パラメータ数はわずか0.23%、計算量は0.4%しか増加しない。JAXとPyTorchのコードおよび事前学習済みモデルは、https://github.com/Caiyun-AI/MUDDFormer で公開されている。
私たちはHealthGPTを紹介します。これは、医療視覚理解と生成能力を統合した強力な医療大規模視覚言語モデル(Med-LVLM)であり、統一された自己回帰パラダイム内で機能します。私たちのブートストラップ哲学は、異種の理解と生成の知識を事前学習済みの大規模言語モデル(LLM)に段階的に適応させることです。これは、新しい異種低ランク適応(H-LoRA)技術によって達成され、これに加えて、カスタマイズされた階層的視覚知覚アプローチと三段階の学習戦略が補完されています。HealthGPTを効果的に学習するために、VL-Healthと呼ばれる包括的な医療ドメイン固有の理解と生成データセットを考案しました。実験結果は、HealthGPTが医療視覚統一タスクにおいて卓越した性能とスケーラビリティを発揮することを示しています。私たちのプロジェクトはhttps://github.com/DCDmllm/HealthGPTでアクセスできます。
YOLOフレームワークのネットワークアーキテクチャの強化は長らく重要視されてきたが、その改善はCNNベースの手法に焦点が当てられてきた。これは、アテンションメカニズムのモデリング能力が優れていることが証明されているにもかかわらず、アテンションベースのモデルがCNNベースのモデルの速度に匹敵できないためである。本論文では、従来のCNNベースモデルと同等の速度を維持しつつ、アテンションメカニズムの性能上の利点を活かしたアテンション中心のYOLOフレームワーク、すなわちYOLOv12を提案する。YOLOv12は、競争力のある速度を維持しながら、すべての人気リアルタイム物体検出器を精度で上回る。例えば、YOLOv12-NはT4 GPU上で1.64 msの推論遅延で40.6%のmAPを達成し、先進的なYOLOv10-N / YOLOv11-Nを2.1%/1.2% mAPで上回りつつ、同等の速度を実現している。この優位性は他のモデルスケールにも及ぶ。YOLOv12はまた、DETRを改善したエンドツーエンドのリアルタイム検出器、例えばRT-DETR / RT-DETRv2をも凌駕する:YOLOv12-SはRT-DETR-R18 / RT-DETRv2-R18を42%高速で動作し、計算量の36%、パラメータ数の45%のみを使用しながら上回る。さらなる比較は図1に示されている。
DiLoCoのような分散最適化手法は、データセンターなどの複数の分散ワーカー間で非常に大規模なモデルを訓練する際に有効であることが示されています。これらの手法では、更新を2つの部分に分割します。1つは内部最適化フェーズで、ワーカーが各自のローカルデータに対して複数の最適化ステップを独立して実行します。もう1つは外部最適化ステップで、内部更新が同期されます。このようなアプローチは、標準的なデータ並列訓練よりも桁違いに少ない通信量で済みますが、ワーカーがデータセンターであるような設定では、これらのアプローチの限られた通信要件であっても、各外部最適化ステップで必要なブロッキングが大きな遅延を引き起こす可能性があります。本論文では、通信と計算を重ね合わせることで、外部最適化ステップを内部最適化フェーズと完全に重ね合わせることを可能にする技術を調査します。特に、eager updatesと呼ばれる特定のバリアントが、ワーカー間の帯域幅が低い設定においても、標準的なDiLoCoと同等の性能を発揮することを示します。
本論文では、大規模言語モデル(LLM)に内在するバイアスに対処するために設計された新しい推論アプローチ「Flow-of-Options(FoO)」を提案します。FoOは、LLMが推論において多様な可能性を体系的に探索することを可能にし、機械学習タスクを自律的に解決するためのFoOベースのエージェントシステム(AutoML)によってその有効性が実証されています。本フレームワークは、標準的なデータサイエンスタスクにおいて38.2%~69.2%、治療化学タスクにおいて37.4%~47.9%の改善を達成し、最先端のベースラインを上回りました。1タスクあたりの総運用コストが1ドル未満であるため、コストに敏感なアプリケーションにも適しています。分類や回帰を超えて、強化学習や画像生成などのタスクに対するFoOベースのエージェントシステムの幅広い適用可能性を示します。本フレームワークは、FoOの利点により、圧縮された説明可能な表現を通じてLLMソリューションの多様性を強化し、ケースベース推論と組み合わせることで長期記憶もサポートするため、現在の最先端のAutoMLエージェントシステムと比較して大きな進歩を実現しています。
大規模推論モデル、例えばOpenAI-o3やDeepSeek-R1の急速な発展により、非推論型大規模言語モデル(LLMs)と比較して複雑な推論能力が大幅に向上しました。しかし、これらのモデルの強化された能力と、DeepSeek-R1のようなモデルのオープンソース化は、特に悪用の可能性に関して深刻な安全上の懸念を引き起こしています。本研究では、これらの推論モデルの包括的な安全性評価を行い、確立された安全性ベンチマークを活用して、安全規制への準拠度を評価します。さらに、ジャイルブレイクやプロンプトインジェクションなどの敵対的攻撃に対する脆弱性を調査し、実世界のアプリケーションにおける堅牢性を評価します。多面的な分析を通じて、以下の4つの主要な発見を明らかにしました:(1)オープンソースのR1モデルとo3-miniモデルの間には、安全性ベンチマークと攻撃の両方において大きな安全性のギャップが存在し、R1モデルに対するさらなる安全対策が必要であることが示唆されています。(2)蒸留された推論モデルは、安全性が調整されたベースモデルと比較して、安全性のパフォーマンスが劣っています。(3)モデルの推論能力が強ければ強いほど、安全でない質問に答える際に引き起こす潜在的な危害が大きくなります。(4)R1モデルの思考プロセスは、最終的な回答よりも大きな安全上の懸念を引き起こします。本研究は、推論モデルのセキュリティへの影響についての洞察を提供し、R1モデルの安全性を向上させ、ギャップを埋めるためのさらなる進展の必要性を強調しています。
大規模なラベルなしデータセットで事前学習された基盤モデルは、自然言語処理やコンピュータビジョンの分野に革命をもたらし、驚異的な汎化能力を示すことで、事前学習の重要性を浮き彫りにしました。しかし、ロボティクス分野での取り組みは、高コストなロボットアノテーションの必要性や、物理世界を効果的にモデル化する表現の欠如によって、同様の成功を収めることに苦戦しています。本論文では、人間のビデオデータから学習した低次元の4D表現を活用し、より優れた事前学習済みロボットモデルを実現するAuto-regressive Robotic Model (ARM4R)を提案します。具体的には、モノクロ深度推定を用いて時間軸に沿って2D表現を3D空間にリフトすることで得られるビデオからの3Dポイントトラッキング表現に焦点を当てます。これらの4D表現は、線形変換までの範囲でポイントとロボット状態表現の間で共有される幾何学的構造を維持し、人間のビデオデータから低次元のロボット制御への効率的な転移学習を可能にします。実験結果は、ARM4Rが人間のビデオデータからロボティクスへ効率的に転移し、様々なロボット環境や構成におけるタスクのパフォーマンスを一貫して向上させることを示しています。
LLM-as-a-Judgeは、連鎖的思考(CoT)による判断を生成する自動評価手法として広く採用されています。しかし、CoT推論が包括的かつ深い詳細を捉えることができないため、その信頼性は損なわれ、しばしば不完全な結果を招いています。既存の手法は主に多数決や評価基準の拡張に依存していますが、これらはCoTの限界を十分に解決するものではありません。本研究では、Crowd-based Comparative Evaluationを提案します。これは、追加のクラウド応答を導入して候補応答と比較することで、候補応答内のより深く包括的な詳細を明らかにします。このプロセスにより、LLM-as-a-Judgeがより詳細なCoT判断を提供するよう効果的に導きます。大規模な実験により、本手法が評価の信頼性を向上させ、5つのベンチマークで平均6.7%の精度向上を達成することが示されました。さらに、本手法はより高品質なCoTを生成し、判断蒸留を促進し、教師ありファインチューニング(SFT)のためのリジェクションサンプリング(クラウドリジェクションサンプリングと呼ばれる)において優れた性能を発揮し、より効率的なSFTを可能にします。我々の分析により、本手法によって生成されたCoTがより包括的で高品質であり、推論スケールが大きくなるにつれて評価精度が向上することが確認されました。
大規模言語モデル(LLMs)は、自然言語理解、テキスト要約、機械翻訳など、さまざまなタスクで顕著な成功を収めています。しかし、その汎用性の高さゆえに、医療、化学、法律分析など専門知識を必要とするドメイン固有のアプリケーションでは、その効果が限られることがあります。この課題に対処するため、研究者たちはドメイン固有の知識を統合することでLLMsを強化する多様な手法を探求してきました。本調査では、これらの手法を包括的に概観し、動的知識注入、静的知識埋め込み、モジュラーアダプター、プロンプト最適化という4つの主要なアプローチに分類します。各アプローチは、柔軟性、拡張性、効率性のバランスを取りながら、LLMsにドメイン専門知識を提供する独自のメカニズムを提供します。これらの手法がLLMsに専門タスクを遂行させる方法を議論し、それぞれの利点と欠点を比較し、ドメイン固有のLLMsと汎用LLMsを評価し、この新興分野における課題と機会を強調します。さらに、この分野に深く関心を持つ読者のために、一般的に使用されるデータセットとベンチマークをまとめています。研究者が最新の研究を把握できるよう、専門化されたLLMの分野における研究を記録するためのオープンソースを以下に維持しています:https://github.com/abilliyb/Knowledge_Injection_Survey_Papers。
埋め込みモデルは、様々な自然言語処理(NLP)アプリケーションにおいて情報の表現と検索において重要な役割を果たしています。大規模言語モデル(LLM)の最近の進展により、埋め込みモデルの性能はさらに向上しています。これらのモデルは一般的に汎用データセットでベンチマークされることが多いですが、実世界のアプリケーションではドメイン固有の評価が求められます。本研究では、金融ドメイン向けに設計されたMTEBの専門版であるFinance Massive Text Embedding Benchmark(FinMTEB)を紹介します。FinMTEBは、中国語と英語の両方で、金融ニュース記事、企業年次報告書、ESG報告書、規制文書、決算説明会の議事録など、多様なテキストタイプをカバーする7つのタスクにわたる64の金融ドメイン固有の埋め込みデータセットで構成されています。また、ペルソナベースのデータ合成手法を用いて、多様な金融埋め込みタスクをカバーするために訓練された金融適応モデル、FinPersona-E5を開発しました。FinPersona-E5を含む15の埋め込みモデルの広範な評価を通じて、以下の3つの主要な知見を示します:(1)汎用ベンチマークでの性能は金融ドメインタスクとの相関が限定的であること、(2)ドメイン適応モデルは一貫して汎用モデルを上回ること、(3)驚くべきことに、金融セマンティックテキスト類似性(STS)タスクでは、単純なBag-of-Words(BoW)アプローチが高度な密埋め込み手法を上回り、密埋め込み技術の現状の限界を浮き彫りにしています。本研究は、金融NLPアプリケーションのための堅牢な評価フレームワークを確立し、ドメイン固有の埋め込みモデルの開発に重要な洞察を提供します。
ペロブスカイト太陽電池(PSCs)の急速な進展に伴い、研究論文の数が指数関数的に増加しており、この分野における効率的な知識管理と推論システムの必要性が急務となっています。本論文では、PSCsのための包括的な知識強化システムを提案します。このシステムは、3つの主要なコンポーネントを統合しています。まず、1,517件の研究論文から構築されたドメイン固有の知識グラフ「Perovskite-KG」を開発しました。このグラフには23,789のエンティティと22,272の関係が含まれています。次に、2つの補完的なデータセットを作成しました。1つは、新たなマルチエージェントフレームワークを通じて生成された55,101の高品質な質問応答ペアからなる「Perovskite-Chat」、もう1つは2,217の慎重に選ばれた材料科学の問題を含む「Perovskite-Reasoning」です。さらに、ドメイン固有の知識支援のための「Perovskite-Chat-LLM」と、科学的推論タスクのための「Perovskite-Reasoning-LLM」という2つの専門的な大規模言語モデルを導入しました。実験結果は、我々のシステムがドメイン固有の知識検索と科学的推論タスクの両方において既存のモデルを大幅に上回り、PSC研究における文献レビュー、実験設計、複雑な問題解決のための効果的なツールを研究者に提供することを示しています。
大規模言語モデル(LLM)は、様々なテキスト生成タスクにおいて顕著な能力を発揮してきました。しかし、オンラインショッピング、科学的推論、数学的問題解決など、多段階の意思決定と環境フィードバックを必要とする問題に対しては、LLMは依然として苦戦しています。純粋なテキストデータとは異なり、大規模な意思決定データの収集は困難です。さらに、多くの強力なLLMはAPIを通じてのみアクセス可能であり、コストと複雑さのため、エージェントタスクのためのファインチューニングが妨げられています。LLMエージェントの限界に対処するため、我々は人間の注釈なしに環境から自動的に報酬モデルを学習できるフレームワークを提案します。このモデルは、LLMエージェントの行動軌跡を評価し、タスク計画のためのヒューリスティックを提供するために使用できます。具体的には、我々のアプローチでは、1つのLLMベースのエージェントをランダムに環境内でナビゲートさせ、多様な行動軌跡を生成します。その後、別のLLMを活用して、各軌跡に対してタスク意図を割り当て、正しい応答とともに否定的な応答を合成します。これらのトリプレット(タスク意図、肯定的応答、否定的応答)は、行動軌跡をスコアリングできる報酬モデルを最適化するためのトレーニングデータとして利用されます。我々のフレームワークの有効性と汎用性は、異なるエージェントベンチマークで実施された評価を通じて実証されています。結論として、我々の提案するフレームワークは、LLMエージェントの意思決定能力を向上させるための重要な進展を表しています。報酬モデルの学習を自動化することで、データ不足とAPIの制限という課題を克服し、複雑でインタラクティブな環境におけるLLMの応用を革新する可能性があります。この研究は、多段階の意思決定を必要とする幅広い現実世界の問題に取り組むことができる、より洗練されたAIエージェントへの道を開くものです。
XLM-Rのような多言語言語モデルはNLPにおける多言語化を進展させてきたが、極めてリソースの少ない言語では依然として性能が低い。この状況は、LLaMAやQwenのような現代の大規模言語モデルがXLM-Rよりもはるかに少ない言語しかサポートしておらず、世界の多くの言語においてテキスト生成モデルが存在しないという事実によってさらに悪化している。この課題に取り組むため、我々は極めてリソースの少ない言語におけるテキスト生成のために多言語エンコーダを適応させる新しいフレームワークを提案する。エンコーダとデコーダ間の重みを再利用することで、このフレームワークはモデルがエンコーダの学習された意味空間を活用できるようにし、リソースの少ない言語において効率的な学習と効果的な汎化を可能にする。このフレームワークを4つの中国少数民族言語に適用し、XLM-SWCMを提示し、より大規模なモデルと比較しても様々な下流タスクで優れた性能を示すことを実証する。
時系列分析は、従来の自己回帰モデル、深層学習モデルから、最近のTransformerや大規模言語モデル(LLMs)へと、目覚ましい発展を遂げてきました。その過程で、ビジョンモデルを時系列分析に活用する試みも行われてきましたが、この分野ではシーケンスモデリングが主流であるため、コミュニティにはあまり目立たない存在でした。しかし、連続的な時系列データとLLMsの離散的なトークン空間との乖離、および多変量時系列における変数間の相関を明示的にモデル化する難しさから、一部の研究の注目は、同様に成功を収めている大規模ビジョンモデル(LVMs)やビジョン言語モデル(VLMs)に向けられています。既存の文献における空白を埋めるため、本調査では、時系列分析におけるビジョンモデルのLLMsに対する利点について議論します。また、時系列を画像としてエンコードする方法や、画像化された時系列をさまざまなタスクのためにモデル化する方法といった主要な研究課題に答える詳細な分類体系を二つの視点から提供し、既存の手法について包括的かつ深い概観を示します。さらに、このフレームワークにおける前処理および後処理ステップの課題を取り上げ、ビジョンモデルを用いた時系列分析をさらに進化させるための将来の方向性を提示します。