翻訳付きの日次キュレーションされたAI研究論文
本論文では、単一の画像またはテキストプロンプトから数秒で3Dシーンを生成する生成モデル「FlashWorld」を提案する。本手法は、従来のマルチビュー指向(MV指向)パラダイムから脱却し、マルチビュー生成中に直接3Dガウシアン表現を生成する3D指向アプローチを採用している。従来の3D指向手法は3D一貫性を保証する一方で視覚品質が低いという課題があった。FlashWorldは、デュアルモード事前学習フェーズとクロスモード事後学習フェーズを組み合わせることで、両パラダイムの長所を効果的に統合している。具体的には、ビデオ拡散モデルの事前知識を活用し、MV指向と3D指向の生成モードを同時にサポートするデュアルモードマルチビュー拡散モデルを事前学習する。さらに、3D指向生成の品質ギャップを埋めるため、一貫性のある3D指向モードから高品質なMV指向モードへの分布マッチングによるクロスモード事後学習蒸留を提案する。これにより、3D一貫性を維持しつつ視覚品質を向上させるとともに、推論に必要なノイズ除去ステップを削減する。また、このプロセス中に大量の単一ビュー画像とテキストプロンプトを活用することで、モデルの分布外入力に対する汎化性能を向上させる戦略を提案する。広範な実験により、本手法の優位性と効率性が実証された。
近年の統一マルチモーダルモデルの進展は、包括的なコンテンツ生成への明確な傾向を示している。しかし、聴覚領域は依然として大きな課題であり、音楽と音声がしばしば孤立して開発されるため、普遍的なオーディオ合成への進展が妨げられている。この分離は、本質的なタスク間の衝突と深刻なデータの不均衡に起因しており、真に統一されたオーディオ生成モデルの開発を阻んでいる。この課題に対処するため、我々は新たな動的容量混合専門家(MoE)フレームワーク内で統一された音声と音楽生成モデルであるUniMoE-Audioを提案する。アーキテクチャ上、UniMoE-Audioは、動的な専門家数割り当てのためのTop-Pルーティング戦略、ドメイン固有の知識を扱うルーティング専門家、ドメインに依存しない特徴を扱う共有専門家、および適応的な計算スキップを可能にするnull専門家からなるハイブリッド専門家設計を導入している。データの不均衡に対処するため、我々は三段階のトレーニングカリキュラムを導入する:1)独立した専門家トレーニングでは、元のデータセットを活用して各「プロト専門家」にドメイン固有の知識を干渉なく注入する;2)MoE統合とウォームアップでは、これらの専門家をUniMoE-Audioアーキテクチャに組み込み、バランスの取れたデータセットのサブセットを使用してゲートモジュールと共有専門家をウォームアップする;3)相乗的ジョイントトレーニングでは、完全にバランスの取れたデータセット上でモデル全体をエンドツーエンドでトレーニングし、クロスドメインの相乗効果を強化する。広範な実験により、UniMoE-Audioは主要な音声および音楽生成ベンチマークで最先端の性能を達成するだけでなく、ナイーブなジョイントトレーニングで通常見られる性能低下を軽減する優れた相乗学習を示すことが明らかになった。我々の研究結果は、専門化されたMoEアーキテクチャと精選されたトレーニング戦略が、普遍的なオーディオ生成の分野を前進させる上で大きな可能性を秘めていることを強調している。ホームページ:https://mukioxun.github.io/Uni-MoE-site/home.html
大規模言語モデル(LLM)の推論パターンは依然として不透明であり、強化学習(RL)は通常、生成全体に均一な信用を適用するため、重要なステップと日常的なステップの区別が曖昧になる。本研究では、注意(attention)を特権的な基盤として位置づけ、LLMの内部ロジックを可視化する。これは単なる計算の副産物ではなく、推論そのもののメカニズムの青図として機能する。まず、注意ヘッドを局所的および全体的に焦点を当てた情報処理に分類し、局所的焦点を当てたヘッドはフレーズのチャンクを示す対角線付近でノコギリ波パターンを生成し、全体的焦点を当てたヘッドは将来のトークンに広範な下流影響を及ぼすトークンを明らかにする。これらを2つの指標で形式化する:1)ウィンドウ平均注意距離(Windowed Average Attention Distance)は、クリップされたウィンドウ内での後方注意の範囲を測定する;2)将来注意影響度(Future Attention Influence)は、トークンが後続のトークンから受ける注意の平均としてそのグローバルな重要性を定量化する。これらの信号を統合すると、モデルがまず長距離の文脈参照を行って導入トークンを生成し、直後にまたは同時にセマンティックアンカートークンが現れてその後の推論を組織化する、繰り返しの事前計画とアンカーメカニズムが明らかになる。これらの知見を活用し、重要なノード(事前計画トークン、アンカートークン、およびそれらの時間的結合)に対して動的にターゲットを絞った信用割り当てを行う3つの新しいRL戦略を導入し、様々な推論タスクで一貫した性能向上を示す。最適化をモデルの内在的な推論リズムに合わせることで、不透明な最適化を実行可能な構造認識プロセスに変換し、LLM推論のより透明で効果的な最適化に向けた潜在的な一歩を提供することを目指す。
完全オープンなマルチモーダル大規模言語モデル(MLLM)は現在、主に教師ありファインチューニング(SFT)のためのデータ品質の大きなギャップにより、プロプライエタリなモデルに遅れを取っています。既存のオープンソースデータセットは、広範なノイズやChain-of-Thought(CoT)などの複雑な推論データの深刻な不足に悩まされており、高度なモデル能力の開発を妨げています。これらの課題に対処するため、本研究では3つの主要な貢献を行います。まず、約1500万のQAペアからなる新しいSFTデータセットであるHoney-Data-15Mを紹介します。このデータセットは、複数のクリーニング技術を経て処理され、新たな二段階(短いものと長いもの)のCoT強化戦略によって強化されています。次に、データキュレーションパイプラインであるHoneyPipeとその基盤となるフレームワークDataStudioを紹介し、静的データセットのリリースを超えた透明で適応可能なデータキュレーション手法をコミュニティに提供します。最後に、Honey-Data-15Mでトレーニングした8BモデルであるBee-8Bを検証します。実験結果は、Bee-8Bが完全オープンなMLLMの新たな最先端(SOTA)を確立し、InternVL3.5-8Bなどの最近のセミオープンモデルと競争力があり、場合によってはそれを上回る性能を達成することを示しています。本研究は、Honey-Data-15Mコーパス、HoneyPipeとDataStudioを含むフルスタックスイート、トレーニングレシピ、評価ハーネス、およびモデルウェイトを含む一連の基礎リソースをコミュニティに提供します。この取り組みは、データ品質に焦点を当てることが、セミオープンなモデルと競争力のある完全オープンなMLLMを開発するための重要な道筋であることを示しています。
視覚-言語-動作(VLA)モデルはロボット操作ベンチマークで印象的な成功率を報告していますが、これらの結果は堅牢性における根本的な弱点を隠している可能性があります。我々は、物体の配置、カメラ視点、ロボットの初期状態、言語指示、照明条件、背景テクスチャ、センサー雑音という7つの次元にわたる制御された摂動を導入することで、体系的な脆弱性分析を実施しました。複数の最先端モデルを包括的に分析し、表面的な能力の下に一貫した脆弱性が存在することを明らかにしました。我々の分析は重要な弱点を暴露しています:モデルはカメラ視点やロボットの初期状態などの摂動要因に対して極端に敏感であり、わずかな摂動で性能が95%から30%未満に低下します。驚くべきことに、モデルは言語のバリエーションに対してほとんど感度を示さず、さらなる実験により、モデルが言語指示を完全に無視する傾向があることが明らかになりました。我々の知見は、高いベンチマークスコアが真の能力と等しいという仮定に疑問を投げかけ、現実的な変動下での信頼性を評価するための評価手法の必要性を強調しています。
現在の映像生成モデルは視覚的にリアルな映像を生成することが可能であるが、物理法則に従わないことが多く、物理的に妥当な映像を生成し「世界モデル」として機能する能力が制限されている。この問題に対処するため、我々はPhysMasterを提案する。PhysMasterは物理的知識を表現として捉え、映像生成モデルをガイドしてその物理的認識を向上させる。具体的には、PhysMasterは画像から映像を生成するタスクに基づいており、モデルは入力画像から物理的に妥当なダイナミクスを予測することが期待される。入力画像はシナリオ内の物体の相対的な位置や潜在的な相互作用などの物理的な事前情報を提供するため、PhysEncoderを設計し、物理情報をエンコードして映像生成プロセスに物理的知識を注入するための追加条件として利用する。単なる外観を超えたモデルの物理的パフォーマンスに対する適切な監督の欠如により、PhysEncoderは人間のフィードバックを用いた強化学習を物理的表現学習に適用し、生成モデルからのフィードバックを活用してDirect Preference Optimization (DPO)を用いて物理的表現をエンドツーエンドで最適化する。PhysMasterは、PhysEncoderの物理的認識を向上させ、それによって映像生成の物理的認識を向上させるための実行可能なソリューションを提供し、単純なプロキシタスクでの能力と幅広い物理的シナリオへの一般化能力を証明する。これは、強化学習パラダイムにおける表現学習を通じて様々な物理的プロセスのソリューションを統合する我々のPhysMasterが、物理的認識を備えた映像生成およびより広範なアプリケーションのための汎用的でプラグイン可能なソリューションとして機能し得ることを示唆している。
効果的な時空間表現は、ビデオのダイナミクスをモデル化し、理解し、予測するための基本である。ビデオの最小単位であるピクセルは、時間とともに連続的な3次元軌跡を描き、ダイナミクスの原始的な要素として機能する。この原理に基づき、我々は任意のビデオを「軌跡場(Trajectory Field)」として表現することを提案する。これは、各フレームの各ピクセルに時間の連続的な3次元軌跡関数を割り当てる高密度マッピングである。この表現を用いて、我々は「Trace Anything」というニューラルネットワークを導入する。このネットワークは、単一の順伝播パスで全体の軌跡場を予測する。具体的には、各フレームの各ピクセルに対して、我々のモデルは軌跡(すなわちBスプライン)をパラメータ化する制御点のセットを予測し、任意のクエリ時間における3次元位置を導出する。我々は、Trace Anythingモデルを大規模な4次元データ(我々の新たなプラットフォームからのデータを含む)で訓練し、以下の結果を示す実験を行った:(i) Trace Anythingは、我々の新たな軌跡場推定ベンチマークにおいて最先端の性能を達成し、既存のポイント追跡ベンチマークでも競争力のある性能を示す;(ii) 反復最適化や補助推定器を必要としないワンパスパラダイムにより、大幅な効率向上を実現する;(iii) 目標条件付き操作、運動予測、時空間融合などの創発的な能力を示す。プロジェクトページ: https://trace-anything.github.io/。
本論文では、オーディオビジュアル多ターンインタラクションのための統一されたオープンソースのオムニモーダル大規模言語モデル「InteractiveOmni」を紹介する。このモデルは、4Bから8Bのパラメータ範囲を持ち、軽量モデルの分野をリードすることを目的として、包括的なオムニモーダル理解と音声生成能力を提供する。これを実現するため、視覚エンコーダ、音声エンコーダ、大規模言語モデル、および音声デコーダを統合し、理解と生成タスクのための統一モデルを構築した。頑健なクロスモーダル能力を確保するために、オムニモーダル理解のための事前学習に続き、音声会話とオーディオビジュアルインタラクションの事後学習を含む多段階トレーニング戦略を設計した。人間のような長期的な会話能力を実現するため、複雑な多ターンインタラクションを処理するモデルの能力を強化する多ターントレーニングデータセットを慎重に作成した。多ターンメモリと音声インタラクション能力を効果的に評価するため、マルチモーダル多ターンメモリベンチマークと多ターン音声インタラクションベンチマークを構築した。実験結果は、InteractiveOmniが主要なオープンソースモデルを大幅に上回り、特に長期的メモリ能力において、よりインテリジェントな多ターンオーディオビジュアル体験を提供することを示している。注目すべきは、InteractiveOmni-4BがQwen2.5-Omni-7Bのようなはるかに大規模なモデルと一般的なベンチマークで同等の性能を発揮し、モデルサイズの50%しか使用せずにInteractiveOmni-8Bの性能の97%を維持できる点である。画像、音声、ビデオ理解、および音声生成タスクにおいて、同サイズのモデルに対して最先端の結果を達成するInteractiveOmniは、次世代のインテリジェントインタラクティブシステムのためのアクセス可能なオープンソース基盤である。
強化学習(Reinforcement Learning, RL)は大規模言語モデル(Large Language Models, LLMs)の訓練において中心的な役割を果たすようになったが、この分野には事前学習で確立されたような予測可能なスケーリング手法が欠如している。計算リソースの予算が急速に増加しているにもかかわらず、RLの計算リソースをスケーリングするためのアルゴリズム的改善を評価するための原則的な理解が存在しない。本研究では、40万GPU時間以上に及ぶ初の大規模系統的研究を実施し、LLMにおけるRLスケーリングを分析・予測するための原則的なフレームワークを定義する。RL訓練におけるシグモイド型の計算性能曲線をフィッティングし、広範な一般的な設計選択をアブレーションすることで、それらが漸近的性能と計算効率に及ぼす影響を分析した。その結果、(1) すべてのレシピが同様の漸近的性能をもたらすわけではないこと、(2) 損失集計、正規化、カリキュラム、オフポリシーアルゴリズムなどの詳細は、主に計算効率を調整し、漸近線を大きく変化させないこと、(3) 安定したスケーラブルなレシピは予測可能なスケーリング軌跡に従い、小規模な実行からの外挿を可能にすることが観察された。これらの知見を組み合わせ、ベストプラクティスレシピであるScaleRLを提案し、10万GPU時間にスケールアップした単一のRL実行において検証性能を成功裏にスケーリングおよび予測することでその有効性を実証した。本研究は、RLにおけるスケーリングを分析するための科学的フレームワークと、事前学習で長らく達成されてきた予測可能性にRL訓練を近づける実践的なレシピを提供する。
ほとんどの自己回帰型大規模言語モデル(LLM)が逐次的なデコードに制約されている一方で、拡散型LLM(dLLM)は並列デコードを通じて推論を劇的に加速する可能性から、注目を集めています。しかし、この可能性にもかかわらず、dLLMにおける条件付き独立性の仮定は、並列デコードにおいてトークン間の依存関係を無視するため、これらの依存関係が強い場合に生成品質の低下を必然的に引き起こします。それにもかかわらず、既存の研究はこれらの本質的な課題をほとんど無視しており、標準的なベンチマーク(例:数学やコーディング)での評価は、並列デコードによる品質低下を十分に捉えることができていません。このギャップを埋めるため、我々はまず並列デコードの情報理論的な分析を提供します。次に、データ分布とデコード戦略の両方の観点から、解析的に扱いやすい合成リスト操作に関するケーススタディを行い、並列デコードの根本的な限界を浮き彫りにする定量的な洞察を提供します。これらの洞察に基づいて、我々はdLLM向けに特別に設計された最初のベンチマークであるParallelBenchを提案します。このベンチマークは、人間や自己回帰型LLMにとっては簡単であるが、並列デコード下のdLLMにとっては非常に困難な現実的なタスクを特徴としています。ParallelBenchを用いて、我々はdLLMと自己回帰型LLMを体系的に分析し、以下のことを明らかにしました:(i) 並列デコード下のdLLMは、現実世界のシナリオにおいて劇的な品質低下を引き起こす可能性があり、(ii) 現在の並列デコード戦略は、タスクの難易度に基づいて並列度を適応させることが難しく、品質を損なうことなく有意義な高速化を達成できていません。我々の知見は、現在の速度と品質のトレードオフを克服するための革新的なデコード手法の緊急の必要性を強調しています。我々は、真に効率的なdLLMの開発を加速するために、このベンチマークを公開します。
マルチエージェントシステム(MAS)と強化学習(RL)は、大規模言語モデル(LLM)のエージェント能力を向上させるために広く利用されている。MASは役割ベースのオーケストレーションを通じてタスク性能を向上させ、RLは環境からの報酬を用いてGRPOスタイルの最適化などの強力なポリシーを学習する。しかし、オンラインRLをMASに適用する研究は未開拓であり、独特の課題を提示している。アルゴリズム的には、標準的なGRPOのグループ化仮定が崩れる。なぜなら、プロンプトは役割やターンによって異なるからである。システム的には、トレーニングスタックがMASワークフローのロールアウトと、単一ポリシーおよび複数ポリシーモデルの両方に対するオンラインポリシー更新をサポートする必要がある。 我々はAT-GRPOを提案する。これには、(i) MASに特化したエージェントおよびターンごとのグループ化RLアルゴリズムと、(ii) 単一ポリシーおよび複数ポリシーレジームの両方をサポートするトレーニングシステムが含まれる。ゲーム、計画、コーディング、数学タスクにおいて、AT-GRPOは大幅な向上をもたらす。長期計画において、単一エージェントRLのベースラインである14.0%から47.0%の精度を96.0%から99.5%に向上させる。また、推論性能も向上し、コーディングタスクでは平均3.87%から7.62%、数学タスクでは9.0%から17.93%の向上が見られる。コードと環境は以下で利用可能である:https://github.com/pettingllms-ai/PettingLLMs。
本論文では、次世代のマルチモーダル推論における視覚言語モデルおよび統合型マルチモーダルモデルのための新たな概念およびプラグインであるGenerative Universal Verifierを紹介する。これは、推論および生成プロセス中に視覚的結果に対する反省と洗練の基本的な能力を提供するものである。本研究は以下の3つの主要な貢献を行う:(1) マルチモーダル推論における視覚的結果を評価するための16のカテゴリにわたる包括的なベンチマークであるViVerBenchを構築した。結果は、既存の視覚言語モデル(VLMs)がこれらのタスクにおいて一貫して低い性能を示し、信頼性のある視覚的検証における人間レベルの能力との大きな隔たりを浮き彫りにした。(2) 大規模な視覚的検証データを構築し、OmniVerifier-7Bを訓練するための2つの自動化パイプラインを設計した。OmniVerifier-7Bは、普遍的な視覚的検証のために訓練された初のオムニ能力を持つ生成検証器であり、ViVerBenchにおいて顕著な向上(+8.3)を達成した。訓練を通じて、視覚的検証における3つの基本的な能力を特定し、それらがどのように一般化し、相乗的に相互作用するかを示した。(3) 普遍的な検証器を活用して、統合モデル内での画像生成と編集を橋渡しする逐次的なテストタイムスケーリングパラダイムであるOmniVerifier-TTSを提案した。これにより、反復的な細粒度最適化を通じて生成能力の上限を向上させた。生成を超えて、普遍的な検証器をより広範な世界モデリングと交差する推論シナリオに拡張した。実験的に、OmniVerifier-TTSはT2I-ReasonBench(+3.7)およびGenEval++(+4.3)において改善を達成し、Best-of-Nなどの既存の並列テストタイムスケーリング手法を上回った。信頼性のある視覚的検証をマルチモーダル推論に付与することにより、OmniVerifierは生成中の信頼性のある反省とスケーラブルなテストタイム洗練の両方を進化させ、より信頼性と制御性の高い次世代推論システムへの一歩を記した。
生成モデルは、環境シミュレーションや未来状態予測のための世界モデリングに広く応用されてきました。自動運転技術の進展に伴い、様々な制御下での高精細なビデオ生成だけでなく、深度推定などの多様で有意義な情報を生成する需要が高まっています。これに対応するため、我々はCVD-STORMを提案します。これは、空間的・時間的再構成を可能とする変分オートエンコーダ(VAE)を活用したクロスビュービデオ拡散モデルであり、様々な制御入力下で長期的なマルチビュービデオを4D再構成能力を持って生成します。我々のアプローチでは、まずVAEを補助的な4D再構成タスクでファインチューニングし、3D構造と時間的ダイナミクスをエンコードする能力を強化します。その後、このVAEをビデオ拡散プロセスに統合し、生成品質を大幅に向上させます。実験結果は、我々のモデルがFIDおよびFVDメトリクスの両方で大幅な改善を達成することを示しています。さらに、共同訓練されたガウススプラッティングデコーダは、動的なシーンを効果的に再構成し、包括的なシーン理解のための貴重な幾何学的情報を提供します。
本論文では、空間的基盤とロボット制御を統合したフレームワークであるInternVLA-M1を紹介する。このフレームワークは、指示追従型ロボットを拡張可能で汎用的な知能へと進化させることを目指している。その核となるアイデアは、空間的に誘導された視覚-言語-行動トレーニングであり、空間的基盤が指示とロボット行動の間の重要なリンクとして機能する。InternVLA-M1は、2段階のパイプラインを採用している:(i) 230万以上の空間推論データを用いた空間的基盤の事前トレーニングにより、指示と視覚的でエンボディメントに依存しない位置を整合させて「どこで行動するか」を決定し、(ii) 空間的に誘導された行動の事後トレーニングにより、プラグアンドプレイの空間プロンプティングを通じてエンボディメントを意識した行動を生成し「どのように行動するか」を決定する。この空間的に誘導されたトレーニング手法は、一貫した向上をもたらす:InternVLA-M1は、空間的誘導なしのバリアントと比較して、SimplerEnv Google Robotで+14.6%、WidowXで+17%、LIBERO Frankaで+4.3%の性能向上を示し、ボックス、ポイント、トレース予測においてより強力な空間推論能力を発揮する。指示追従をさらに拡張するために、244,000の汎用的なピックアンドプレースエピソードを収集するシミュレーションエンジンを構築し、200のタスクと3,000以上のオブジェクトにわたって平均6.2%の改善を実現した。実世界のクラスタードピックアンドプレースでは、InternVLA-M1は7.3%の改善を示し、合成データを用いた共トレーニングにより、未見のオブジェクトと新しい構成に対して+20.6%の性能向上を達成した。さらに、長期的な推論が求められるシナリオでは、既存の研究を10%以上上回る結果を示した。これらの結果は、空間的に誘導されたトレーニングが、拡張性と耐性を備えた汎用ロボットの統一原理としての重要性を強調している。コードとモデルはhttps://github.com/InternRobotics/InternVLA-M1で公開されている。
人工知能(AI)における最先端の研究には、グラフィックスプロセッシングユニット(GPU)、データ、人的資源など、相当なリソースが必要とされる。本論文では、これらのリソースと基盤モデル(Foundation Models, FM)の科学的進歩との関係を評価する。2022年から2024年にかけて発表された6517件のFM関連論文をレビューし、229名の第一著者に対して、計算リソースが科学的成果に与える影響について調査を行った。その結果、計算リソースの増加は国家の資金配分や被引用数と相関があることが明らかとなったが、研究環境(学術界または産業界)、分野、研究方法論との強い相関は観察されなかった。個人や機関は、リソースが限られた研究者の参入障壁を低くするために、共有可能で手頃な計算機会を創出することに注力することを推奨する。これらの取り組みは、FM研究への参加を拡大し、アイデアや貢献者の多様性を促進し、AIにおけるイノベーションと進歩を持続させることに寄与する。データは以下のURLで公開される:https://mit-calc.csail.mit.edu/
本論文では、3D視覚的グラウンディングが空間推論の基盤であると主張し、それらの間のギャップを埋める効果的な空間表現を探求するためのGrounded-Spatial Reasoner(GS-Reasoner)を紹介します。既存の3D LLMは、意味情報と幾何学的情報を同時に捉える統一された3D表現の欠如に悩まされており、これはグラウンディングの性能の低さや外部モジュールへの過度な依存として現れ、グラウンディングと空間推論のシームレスな統合を妨げています。この問題に対処するため、我々は幾何学的特徴を意味的および位置的手がかりと密接に整合させるシンプルかつ効果的なデュアルパスプーリングメカニズムを提案し、入力トークンの数を増やすことなく全ての必須情報をカプセル化する統一された画像パッチベースの3D表現を構築します。この包括的な表現を活用することで、GS-Reasonerは外部モジュールを一切使用せずにオートリグレッシブなグラウンディングを達成する初めての3D LLMとなり、最先端モデルに匹敵する性能を発揮し、3D空間推論のための統一された自己完結型フレームワークを確立します。さらに、グラウンディングと空間推論の橋渡しをするため、Grounded Chain-of-Thought(GCoT)データセットを導入します。このデータセットは、推論問題で参照されるオブジェクトの3Dバウンディングボックスアノテーションと、グラウンディングを問題解決プロセスの核心的要素として統合した段階的な推論パスを含むように慎重にキュレーションされています。大規模な実験により、GS-Reasonerが3D視覚的グラウンディングで印象的な結果を達成し、それが空間推論能力を大幅に向上させ、最先端の性能を実現することが示されています。
汎用的なVision-Language-Action(VLA)モデルの成功は、大規模でクロスエンボディメントの異種データセットを用いた多様なロボットプラットフォームでの効果的なトレーニングに依存している。豊かで多様なロボットデータソースの異質性を活用し、促進するために、我々は最小限の追加パラメータでソフトプロンプトアプローチを提案する。これは、プロンプト学習の概念をクロスエンボディメントのロボット学習に注入し、各異なるデータソースに対して別々の学習可能な埋め込みセットを導入することによって実現される。これらの埋め込みは、エンボディメント固有のプロンプトとして機能し、統一してVLAモデルに様々なクロスエンボディメントの特徴を効果的に活用させる。我々の新しいX-VLAは、フローマッチングに基づいた簡潔なVLAアーキテクチャであり、ソフトプロンプトされた標準Transformerエンコーダーのみに依存し、スケーラビリティとシンプルさを享受する。6つのシミュレーションおよび3つの実世界のロボットで評価された我々の0.9Bインスタンス化であるX-VLA-0.9Bは、一連のベンチマークでSOTA性能を同時に達成し、柔軟な器用さからエンボディメント、環境、タスク間での迅速な適応まで、幅広い能力軸で優れた結果を示す。ウェブサイト: https://thu-air-dream.github.io/X-VLA/
ユニバーサルマルチモーダル埋め込みモデルは、さまざまなタスクの基盤となるものである。既存のアプローチでは、通常、クエリと候補のペアの類似度を測定することで、バッチ内のネガティブマイニングを行う。しかし、これらの手法は、候補間の微妙な意味的差異を捉えることが難しく、ネガティブサンプルの多様性に欠けることが多い。さらに、埋め込みは、偽のネガティブやハードネガティブを区別するための識別能力が限られている。本論文では、MLLM(マルチモーダル言語モデル)の高度な理解能力を活用して表現学習を強化し、新たなユニバーサルマルチモーダル埋め込みモデル(UniME-V2)を提案する。我々のアプローチでは、まずグローバル検索を通じて潜在的なハードネガティブセットを構築する。次に、MLLM-as-a-Judgeメカニズムを導入し、MLLMを用いてクエリと候補のペアの意味的整合性を評価し、ソフトな意味的マッチングスコアを生成する。これらのスコアは、ハードネガティブマイニングの基盤として機能し、偽のネガティブの影響を軽減し、多様で高品質なハードネガティブの識別を可能にする。さらに、意味的マッチングスコアは、ソフトラベルとして使用され、厳密な1対1マッピングの制約を緩和する。類似度行列とソフトな意味的マッチングスコア行列を整合させることで、モデルは候補間の意味的差異を学習し、その識別能力を大幅に向上させる。さらに、性能を向上させるために、UniME-V2-Rerankerを提案する。これは、我々がマイニングしたハードネガティブに対して、ペアワイズおよびリストワイズの最適化アプローチを組み合わせて訓練したリランキングモデルである。MMEBベンチマークおよび複数の検索タスクにおいて包括的な実験を行い、我々の手法が全てのタスクにおいて平均的に最先端の性能を達成することを示す。
本研究では、入力画像の劣化タイプの分類を容易にし、包括的な画像復元の事前学習を実現するためのMasked Degradation Classification Pre-Training(MaskDCPT)手法を提案する。従来の事前学習手法とは異なり、MaskDCPTは画像の劣化タイプを極めて弱い教師信号として利用しつつ、画像再構築を活用して性能とロバスト性を向上させる。MaskDCPTはエンコーダと2つのデコーダで構成されており、エンコーダはマスクされた低品質入力画像から特徴を抽出する。分類デコーダはこれらの特徴を用いて劣化タイプを識別し、再構築デコーダは対応する高品質画像の再構築を目指す。この設計により、事前学習はマスク画像モデリングとコントラスティブ学習の両方の利点を享受し、復元タスクに適した汎用的な表現を獲得する。シンプルでありながら強力なMaskDCPTの恩恵により、事前学習されたエンコーダは普遍的な画像復元に適用され、優れた性能を発揮する。MaskDCPTの実装は、畳み込みニューラルネットワーク(CNN)とTransformerの両方において性能を大幅に向上させ、5Dオールインワン復元タスクではPSNRが最低3.77 dB向上し、実世界の劣化シナリオではPIQEがベースライン比で34.8%減少する。また、未見の劣化タイプやレベルに対しても強い汎化性能を示す。さらに、19の劣化タイプと200以上の劣化レベルにわたる250万組の復元サンプルを含むUIR-2.5Mデータセットを整備し公開した。このデータセットには合成データと実世界データの両方が含まれる。データセット、ソースコード、およびモデルはhttps://github.com/MILab-PKU/MaskDCPTで公開されている。
大規模言語モデル(LLM)を活用してドキュメントを検索し、自然言語による応答を生成する生成エンジン(Generative Engines)は、Google AI OverviewやChatGPTなどの例に見られるように、ユーザー体験を大幅に向上させ、新たな検索形態として急速に普及しています。その急速な採用は、コンテンツ提供者がより多くのトラクション(注目)を得ようとする中で、生成エンジン最適化(Generative Engine Optimization, GEO)の必要性を駆動しています。本論文では、検索されたコンテンツを応答生成に使用する際に生成エンジンの選好を自動的に学習し、ウェブコンテンツを書き換えてより多くのトラクションを得るためのフレームワークであるAutoGEOを紹介します。AutoGEOはまず、最先端のLLMに生成エンジンの選好を説明させ、その説明から意味のある選好ルールを抽出します。次に、これらの選好ルールを、プロンプトベースのGEOシステムであるAutoGEO_APIのコンテキストエンジニアリングとして使用し、コスト効率の高いGEOモデルであるAutoGEO_Miniを訓練するためのルールベースの報酬として活用します。標準的なGEO-Benchと、実際のユーザークエリを使用して新たに構築した2つのベンチマークでの実験により、AutoGEOが検索の有用性を維持しながらコンテンツのトラクションを向上させる効果が実証されました。分析により、学習されたルールの堅牢性と異なるドメインにおける独自の選好を捉える能力、およびAutoGEOシステムがそれらをコンテンツ最適化に組み込む能力が確認されました。コードはhttps://github.com/cxcscmu/AutoGEOで公開されています。
統一マルチモーダルモデルは、視覚的理解と生成を同時に実現することを目指していますが、現在のベンチマークではその真の統合性を十分に検証していません。既存の評価では、これら2つの能力を個別に扱うか、本質的にそれらを結合するタスクを見落としています。このギャップを埋めるため、私たちはUni-MMMUを提案します。これは、科学、コーディング、数学、パズルなど8つの推論中心領域にわたって、生成と理解の双方向の相乗効果を体系的に展開する、包括的かつ分野を意識したベンチマークです。各タスクは双方向に結合されており、モデルに次のことを要求します:(i) 概念的理解を活用して正確な視覚的合成を導くこと、または(ii) 分析的推論のための認知的足場として生成を利用すること。Uni-MMMUは、検証可能な中間推論ステップ、独自のグラウンドトゥルース、およびテキストと視覚的出力の両方に対する再現可能なスコアリングプロトコルを組み込んでいます。最先端の統一モデル、生成専用モデル、理解専用モデルの広範な評価を通じて、大幅な性能差とクロスモーダル依存関係を明らかにし、これらの能力がいつ、どのように互いに強化し合うかについての新たな洞察を提供し、統一モデルの進歩のための信頼できる基盤を確立します。
細粒度の視覚言語理解には、視覚的コンテンツと言語的記述の間の精密なアラインメントが必要であり、これは特に非英語環境において、現在のモデルでは限定的な能力にとどまっている。CLIPのようなモデルはグローバルなアラインメントにおいて優れた性能を発揮するが、物体属性、空間関係、言語表現における細粒度の詳細を捉えることに苦戦し、二言語理解のサポートも限られている。これらの課題に対処するため、我々はFG-CLIP 2を導入する。これは、英語と中国語の両方における細粒度のアラインメントを進化させるために設計された二言語視覚言語モデルである。我々のアプローチは、領域-テキストマッチングや長文キャプションモデリングを含む豊富な細粒度の監督、および複数の識別的目標を活用する。さらに、意味的に類似したキャプションをより良く区別するために、テキスト内モーダルコントラスティブ(TIC)損失を導入する。大規模な英語と中国語のデータを慎重に選別してトレーニングされたFG-CLIP 2は、強力な二言語性能を達成する。厳密な評価を可能にするため、我々は中国語のマルチモーダル理解のための新しいベンチマークを提示し、長文キャプション検索とバウンディングボックス分類を特徴とする。8つのタスクにわたる29のデータセットでの広範な実験により、FG-CLIP 2が既存の手法を上回り、両言語において最先端の結果を達成することが示された。我々は、二言語細粒度アラインメントに関する将来の研究を促進するため、モデル、コード、およびベンチマークを公開する。
モデルマージ、特にInstructモデルとThinkingモデルにおいて、効率的な推論のために顕著な性能を示すことが確認されている。本論文では、2つの重みを直接補間する最も単純なマージ手法を体系的に再検討する。特に、モデル補間が推論軌跡において異なる挙動を示す3段階の進化的パラダイムに従うことを観察する。これらのダイナミクスは、性能とコストのトレードオフをナビゲートするための原理的なガイドを提供する。実証結果から、戦略的に補間されたモデルが、効率性と有効性の両方において、洗練されたモデルマージのベースラインを驚くほど上回ることが示される。さらに、モデルの層、モジュール、およびデコード戦略に関する広範なアブレーションスタディを通じて、我々の知見を検証する。最終的に、本論文はモデル補間の謎を解き明かし、正確にターゲットを絞った推論能力を持つモデルを構築するための実践的なフレームワークを提供する。コードはhttps://github.com/wutaiqiang/MI{Github}で公開されている。
大規模言語モデル(LLM)の最近の進展は、推論計算の増加を通じて推論能力を向上させるためのテスト時スケーリングに焦点を当ててきましたが、しばしば効率性を犠牲にしています。私たちはテスト時の挙動を再検討し、単純ながらも未開拓の現象を発見しました:推論の不確実性は高度に局所化されており、高エントロピーのトークンの小さなサブセットが出力の正確性に支配的な影響を与えるということです。これに動機づけられて、私たちはMinimal Test-Time Intervention(MTI)を提案します。これは、最小限のオーバーヘッドで推論の正確性と安定性を向上させるトレーニング不要のフレームワークです。MTIには以下が含まれます:(i)Selective CFG intervention、不確実な位置でのみclassifier-free guidanceを適用する;(ii)Lightweight negative-prompt guidance、メインモデルのKVキャッシュを再利用して無条件デコードを効率的に近似する。MTIは、一般的なタスク、コーディングタスク、STEMタスクにわたって一貫した改善をもたらします。例えば、Qwen3-8B-Baseでは8つのベンチマークで平均+1.35%の改善、Qwen3-32B-ReasoningではAIME2024で+5%の改善を達成しつつ、高い効率性を維持しています。
デコーダのみのトランスフォーマーは、その優れた性能から大規模言語モデル(LLM)の標準的なアーキテクチャとなっている。最近の研究によると、事前学習済みのLLMにおいて、初期層、中間層、後期層はそれぞれ異なる役割を果たす可能性がある。初期層は入力コンテキストの理解に焦点を当て、中間層はタスク固有の処理を担当し、後期層は抽象的な表現を出力トークンに変換する。我々は、初期層と中間層によって処理された表現が、後期層のみを使用して複数のトークンを生成するのに十分な情報を隠れ状態に含んでいる可能性があると仮説を立てた。これにより、初期層と中間層を繰り返し通過する必要がなくなる。我々はこの推論パラダイムを「Direct Multi-Token Decoding(DMTD)」と呼ぶ。スペキュレーティブデコーディングとは異なり、この手法では追加のパラメータ、補助ルーチン、または生成後の検証を導入しない。限られたデータセットで学習されたにもかかわらず、ファインチューニングされたDMTD Qwen3-4Bモデルは、わずかな性能低下で最大2倍の高速化を達成し、有望な結果を示している。さらに、スケーリング分析が示すように、より大規模な学習データセットを使用することで、その性能はさらに向上することが期待される。
訓練可能なスパースアテンションは、長文脈処理における大規模言語モデル(LLM)のデコード効率のボトルネックを解決する有望な手法として登場し、タスク性能に最小限の影響を与えながらメモリアクセスを大幅に削減します。しかし、既存のスパースアテンション手法は重要な制限を未解決のままにしています。それは、キー・バリュー(KV)キャッシュのサイズが削減されないことであり、これによりGPU上のバッチサイズが制約され、特に大規模なバッチ推論においてデコードスループットが低下します。本論文では、訓練可能なスパースアテンションが隣接するデコードステップ間でトークン選択に強い局所性を示すことを明らかにし、これにより基盤となるアテンション計算を変更することなくKVキャッシュのオフロードを可能にします。しかし、この内在的な局所性だけでは効率的なオフロードを達成するには不十分であり、選択されたKVペアのCPUとGPU間の転送が依然として全体のデコードコストを支配しています。この洞察に基づき、本論文ではKVキャッシュオフロードをネイティブにサポートする訓練可能なスパースアテンションフレームワークであるNOSAを提案します。NOSAは、トークン選択をクエリ依存およびクエリ非依存のコンポーネントに分解することで明示的な局所性制約を導入し、訓練中と同じアテンション計算を維持しながらKV転送を削減します。1BパラメータのモデルをNOSAで事前訓練し、広範なベンチマークを実施した結果、NOSAはほぼロスレスな性能を維持しつつ、従来の訓練可能なスパースアテンションベースライン(InfLLM-V2)と比較して最大2.3倍のデコードスループット向上を達成することを示しました。
ロボットの操作ポリシーは、新しい物体への汎化に苦戦することが多く、実世界での有用性が制限されている。一方、認知科学の研究によれば、子供たちは少数の単純なおもちゃを習得し、その知識をより複雑なアイテムに適用することで、汎用的な器用な操作スキルを発達させる。これに着想を得て、我々はロボットにおいても同様の汎化能力が達成可能かどうかを検討した。その結果、ロボットは、球体、直方体、円柱、リングという4つの形状プリミティブから構成されるランダムに組み立てられた物体を用いて、汎用的な把持を学習できることが示された。これらの「おもちゃ」で訓練することで、実世界の物体に対してロバストな汎化が可能となり、強力なゼロショット性能が得られることを示した。特に、この汎化の鍵となるのは、我々が提案する検出プーリングメカニズムによって誘導される物体中心の視覚表現であることが明らかになった。シミュレーションおよび物理ロボットでの評価において、我々のモデルはYCBデータセットで67%の実世界把持成功率を達成し、より多くのドメイン内データに依存する最先端のアプローチを上回った。さらに、訓練用おもちゃの数と多様性、およびおもちゃごとのデモンストレーション数を変化させることで、ゼロショット汎化性能がどのようにスケールするかを調査した。我々は、この研究がロボット操作におけるスケーラブルで汎用的な学習への有望な道を提供すると考えている。デモンストレーションビデオ、コード、チェックポイント、およびデータセットはプロジェクトページ(https://lego-grasp.github.io/)で公開されている。
模倣学習(IL)のみで訓練されたエンドツーエンドの自動運転モデルは、一般化性能が低いことが多い。一方、強化学習(RL)は報酬最大化を通じて探索を促進するが、サンプル効率の低さや収束の不安定性といった課題に直面する。これらの問題を解決する自然な方法は、ILとRLを組み合わせることである。従来の二段階パラダイム(ILによる事前学習とそれに続くRLによる微調整)を超えて、我々はCoIRL-ADを提案する。これは、訓練中にILエージェントとRLエージェントが相互作用する競合型デュアルポリシーフレームワークである。CoIRL-ADは、競争ベースのメカニズムを導入し、勾配衝突を防ぎながら知識交換を促進する。nuScenesデータセットを用いた実験では、ベースラインと比較して衝突率が18%減少し、一般化性能が向上し、ロングテールシナリオでのパフォーマンスが改善されたことが示された。コードは以下で公開されている:https://github.com/SEU-zxj/CoIRL-AD。
大規模言語モデルを活用したマルチエージェントシステムの最近の進展は、効果的なコミュニケーションを通じて顕著な集団的知能を実証している。しかし、既存のアプローチには2つの主要な課題がある。(i) グラフ構造におけるペアワイズなエッジ表現に依存しているため、複数のエージェント間の関係を捉える能力が制限され、グループ協力のモデリングが非効率であること。(ii) コミュニケーショントポロジーの設計におけるタスク適応性が限られており、単純なタスクでは過剰なコミュニケーションコストが発生し、複雑なシナリオでは十分な調整が得られないこと。これらの問題は、適応的協力フレームワークのスケーラビリティと実用的な展開を制限している。これらの課題に対処するため、我々はHyperAgentを提案する。これは、ハイパーグラフベースのフレームワークであり、直接的なハイパーエッジ表現を用いてコミュニケーショントポロジーを最適化し、グループ協力パターンを効果的に捉える。エッジベースのアプローチとは異なり、HyperAgentはハイパーエッジを使用して同じサブタスク内の複数のエージェントをリンクし、ハイパーグラフ畳み込み層を利用して協力グループ内でのワンステップ情報集約を実現する。さらに、スパース正則化を組み込んだ変分オートエンコーダフレームワークを採用し、タスクの複雑さに基づいてハイパーグラフトポロジーを動的に調整する。実験結果は、HyperAgentの性能と効率の優位性を強調している。例えば、GSM8Kにおいて、HyperAgentは95.07%の精度を達成しつつ、トークン消費量を25.33%削減し、マルチエージェントコミュニケーションにおけるハイパーグラフベースの最適化の可能性を示している。
大規模言語モデル(LLM)に基づく推論システムは、最近のIMO 2025競技において金メダルレベルの性能を達成し、数学的証明を記述する際に、完全な評価を得るためには各ステップが正しいだけでなく、十分に裏付けられている必要があるという厳しい条件を満たしました。このような挑戦的で開放的な設定においてLLMベースの推論システムを訓練するためには、ステップレベルの誤りを捕捉できる強力な検証器が不可欠な前提条件となります。本論文では、500時間以上の人的労力をかけて作成された、人間による注釈付きのステップレベル検証ベンチマーク「Hard2Verify」を紹介します。Hard2Verifyは、最先端のステップレベル検証器を厳密に評価するために設計されています。検証器は、最先端のLLMによって生成された回答に対してステップレベルの注釈を提供するか、または最初の誤りを特定する必要があります。これらの回答は、非常に最近の、挑戦的で開放的な数学的問題に対するものです。我々は29の生成的批評家とプロセス報酬モデルを評価し、いくつかの優れたモデルを除いて、オープンソースの検証器がクローズドソースモデルに遅れをとっていることを示しました。さらに、ステップレベル検証における性能の低さの原因、検証器の計算資源のスケーリングの影響、自己検証や検証-生成のダイナミクスといった根本的な問題について分析を行いました。
マルチターンText-to-SQLは、ユーザーの会話発話を実行可能なSQLに変換しつつ、対話の一貫性を保ち、ターゲットスキーマに基づくことを目指す。しかし、既存のシステムの多くはこのタスクを単純なテキスト翻訳タスクと見なし、短期的なパラダイムに従い、実行や明示的な検証、リファインメントを行わずにターンごとにクエリを生成するため、実行不可能または一貫性のない出力が生じる。本論文では、長期的なマルチターンText-to-SQLのためのエージェント型トレーニングフレームワークであるMTSQL-R1を提案する。このタスクをマルコフ決定過程(MDP)として定式化し、エージェントが(i)データベースと実行フィードバックを、(ii)永続的な対話メモリと一貫性検証を行い、提案→実行→検証→リファインのサイクルを繰り返し、すべてのチェックが通過するまで続ける。COSQLとSPARCでの実験により、MTSQL-R1が強力なベースラインを一貫して上回ることが示され、会話的意味解析における環境駆動型検証とメモリ誘導型リファインメントの重要性が強調された。内部レビュー後に、コード、トレーニング済みモデル、ログ、推論軌跡などの完全なレシピを公開し、コミュニティ研究に貢献する予定である。
マルチエージェント大規模言語モデル(LLM)システムは、エージェント間のコミュニケーションと協調を必要とする複雑な言語処理タスクにおいて、ますます採用されています。しかし、これらのシステムは、エージェント間で重複するコンテキストの繰り返し処理による大幅なオーバーヘッドに悩まされることが多いです。典型的なパイプラインでは、エージェントが前のエージェントからメッセージを受信すると、以前のターンを含む完全なコンテキストを最初から再処理する必要があり、非効率な処理が生じます。キー・バリュー(KV)キャッシュは、プレフィックスが変わらない単一エージェント設定での冗長な計算を回避するための効果的な解決策ですが、エージェント固有のコンテキスト拡張によって導入される異なるプレフィックスのため、マルチエージェントシナリオでは直接再利用できません。我々は、KVキャッシュのオフセットのばらつきが核心的な課題であることを特定しました。これを解決するために、KVCOMMを提案します。KVCOMMは、多様なプレフィックスコンテキスト下で重複するコンテキストのキャッシュオフセットを調整し、KVキャッシュを再利用することで、マルチエージェント推論における効率的なプレフィリングを可能にするトレーニング不要のフレームワークです。KVCOMMは、共有コンテンツのKVキャッシュを推定し調整するために、異なるプレフィックス下で観測されたキャッシュの偏差を保存するアンカーのプールを参照します。アンカープールはオンラインで維持・更新され、異なるユーザーリクエストやコンテキスト構造に動的に適応できます。KVCOMMは、検索拡張生成、数学的推論、協調的コーディングタスクを含む多様なマルチエージェントワークロードにおいて、品質の低下なしに70%以上の再利用率を達成します。特に、5エージェント設定下で、各完全接続エージェントが1Kの入力トークン(512プレフィックストークンと512出力トークン)を受信する場合、KVCOMMは標準のプレフィルパイプラインと比較して最大7.8倍の高速化を実現し、TTFTを約430msから約55msに短縮します。
トラッカーとビデオ生成器は密接に関連する問題を解決します。前者は動きを分析し、後者は動きを合成します。本論文では、この関連性を利用して、事前学習済みのビデオ拡散モデルがゼロショットポイントトラッキングを実行できることを示します。具体的には、モデルにポイントを視覚的にマークするよう促すだけで、時間の経過とともにポイントを追跡します。クエリポイントに特徴的な色のマーカーを配置し、中間ノイズレベルからビデオの残りを再生成します。これにより、マーカーがフレーム間で伝播し、ポイントの軌跡を描きます。自然なビデオではそのようなマーカーが現れにくいにもかかわらず、この反事実的生成においてマーカーが可視性を保つように、未編集の初期フレームをネガティブプロンプトとして使用します。複数の画像条件付きビデオ拡散モデルを用いた実験を通じて、これらの「創発的」なトラックが従来のゼロショット手法を上回り、オクルージョンを通じて持続し、専門的な自己教師ありモデルと競合する性能を達成することがわかりました。
アライメントトレーニングにはトレードオフが存在します。それは、言語モデル(LM)が推論や指示追従の能力を向上させる一方で、創造性やキャリブレーションといったスキルにおいては、非アライメントされたベースモデルの方が優れている可能性があるからです。私たちは、モデル間の協調を通じて、両方の世界の長所を最大限に活用することを目指しています。ここでは、トレーニングパイプライン内の異なるモデルが協力し、互いを補完します。LMの応答は、異なるモデルに適したスキルが交互に現れる特徴を持つため、事前学習済みモデルとアライメントされたモデルのバージョンが応答シーケンス内で交互に「発言」する「スイッチ生成」を提案します。具体的には、多様なクエリとコンテキストにおいて、次のセグメントを生成するために異なるモデルを選択した結果から学習することで、スイッチャーLMをトレーニングします。推論時には、スイッチャーLMが異なるモデルチェックポイントを導き、その強みが最も必要とされる場所で次のセグメントを動的に生成します。8つのモデル協調ベースラインと18のデータセットを用いた広範な実験により、1) モデル協調は18のタスクのうち16において個々のモデルを一貫して上回り、2) スイッチ生成はベースラインを平均12.9%上回ることが示されました。さらに分析を行った結果、スイッチ生成は、個々のモデルが苦手とする問題を解決するための合成的スキルを発見し、未見のモデルやタスクに一般化することが明らかになりました。これにより、高価なモデルトレーニングパイプラインで生成される副産物を再利用・再活用することが可能となり、従来は廃棄されていたものを有効に活用しています。
大規模言語モデルを基盤とするマルチエージェントシステムは、協調的な連携を通じて複雑なタスクに優れた性能を発揮するが、多段階の深い探索シナリオでは高い失敗率に直面している。既存の時間的帰属手法は、特にエラーが複数のエージェントに伝播する場合に根本原因を正確に診断することが困難である。行動シーケンスを分析することで失敗の帰属を自動化しようとする試みも、エージェント間の情報依存関係を考慮できないため、効果的ではない。本論文では、二つの核心的な課題を特定する:(i) マルチエージェントのエラー伝播において症状と根本原因を区別すること、(ii) 時間的順序を超えた情報依存関係を追跡すること。これらの課題に対処するため、我々は情報フロー分析を通じて失敗の帰属を再定義するフレームワークであるGraphTracerを提案する。GraphTracerは、情報依存グラフ(IDG)を構築し、エージェントがどのように以前の出力を参照し、それに基づいて構築するかを明示的に捕捉する。これにより、時間的シーケンスに依存するのではなく、これらの依存構造を追跡することで根本原因を特定する。さらに、GraphTracerはグラフを意識した合成データ生成を用いて重要なノードをターゲットとし、現実的な失敗シナリオを作成する。Who\&Whenベンチマークでの評価および生産システムへの統合により、GraphTracer-8Bは最先端のモデルと比較して最大18.18\%高い帰属精度を達成し、展開されたマルチエージェントフレームワークにおいて4.8\%から14.2\%の性能向上を実現し、マルチエージェントシステムのデバッグに対する堅牢なソリューションを確立する。
推論言語モデルとテスト時スケーリング手法の台頭に伴い、モデル性能を向上させるためのパラダイムとして、同じプロンプトから複数の候補シーケンスを生成するために多くの計算リソースが必要となることが多い。これにより、正しい解に向けた異なる推論経路の探索が可能となるが、各プロンプトに対して同じ計算予算が割り当てられる。異なるプロンプトは異なる複雑さを持ち、したがって異なる計算ニーズを持つという仮定に基づき、我々はEAGerを提案する。EAGerは、トークンごとのエントロピー分布を活用して冗長な計算を削減し、同時に全体的な性能を向上させるトレーニング不要の生成手法である。EAGerは、高エントロピーのトークンが存在する場合にのみ複数の推論経路に分岐し、節約された計算予算を代替経路の探索が最も必要なインスタンスに再割り当てする。AIME 2025などの複雑な推論ベンチマークにおいて、複数のオープンソースモデルに対してEAGerはターゲットラベルにアクセスすることなく予算を再割り当てし、推論長とPass@kの観点で最良の効率と性能のトレードオフを達成する。ターゲットラベルがアクセス可能な場合、EAGerはFull Parallel Samplingと比較して最大65%少ないトークンを生成し(したがって計算を節約)、Pass@kで最大37%の改善を達成する。
現代の長文脈大規模言語モデル(LLMs)は、合成的な「干し草の山の中の針」(NIAH)ベンチマークにおいて良好な性能を示すが、そのようなテストは、偏った検索やエージェント的なワークフローから生じるノイズの多い文脈を考慮していない。我々は、干し草の山のエンジニアリングが、現実世界の重要な要素――異種の偏った検索器からの注意散漫やエージェント的なワークフローにおける連鎖的なエラー――を忠実に捉えたノイズの多い長文脈を構築し、モデルの長文脈ロバスト性をテストするために必要であると主張する。我々はこれを、HaystackCraftという新しいNIAHベンチマークを通じて具体化する。HaystackCraftは、英語版Wikipediaのハイパーリンクネットワーク全体に基づいて構築され、マルチホップの質問を含む。HaystackCraftは、異種の検索戦略(例えば、スパース、デンス、ハイブリッド、グラフベース)が、ディストラクターの構成、干し草の山の順序、および下流のLLMの性能にどのように影響するかを評価する。HaystackCraftはさらに、NIAHを動的でLLM依存の設定に拡張し、エージェント的な操作をシミュレートする。ここでは、モデルがクエリを改良し、過去の推論を反映し、いつ停止するかを決定する。15の長文脈モデルを用いた実験結果は、(1) より強力なデンス検索器がより挑戦的なディストラクターを導入する一方で、グラフベースの再ランキングが検索の有効性を向上させ、より有害なディストラクターを緩和すること、(2) エージェント的なテストでは、Gemini 2.5 ProやGPT-5のような先進的なモデルでさえ、自己生成されたディストラクターからの連鎖的な失敗に苦しむか、早期停止を実行するのに苦労することを示している。これらの結果は、エージェント的な長文脈推論における持続的な課題を浮き彫りにし、HaystackCraftを将来の進歩のための貴重なテストベッドとして確立する。
大規模言語モデル(LLMs)は、人間と同等またはそれ以上の言語能力を示し、構文構造を効果的にモデル化しているが、その背後にある具体的な計算モジュールは未解明である。重要な疑問は、LLMの行動能力が人間の脳と類似したメカニズムに由来するかどうかである。これらの疑問に取り組むため、我々は階層的周波数タギングプローブ(HFTP)を導入した。このツールは、周波数領域解析を利用して、LLMのニューロンレベルの構成要素(例えば、個々の多層パーセプトロン(MLP)ニューロン)および構文構造を符号化する皮質領域(頭蓋内記録を通じて)を特定する。結果として、GPT-2、Gemma、Gemma 2、Llama 2、Llama 3.1、GLM-4などのモデルは、類似した層で構文を処理する一方、人間の脳は異なる構文レベルに対して異なる皮質領域に依存していることが示された。表現的類似性分析により、LLMの表現と脳の左半球(言語処理において優位)との間に強い整合性が明らかになった。特に、アップグレードされたモデルでは異なる傾向が見られ、Gemma 2はGemmaよりも脳との類似性が高く、Llama 3.1はLlama 2と比較して脳との整合性が低いことが確認された。これらの発見は、LLMの行動改善の解釈可能性に関する新たな洞察を提供し、これらの進歩が人間的なメカニズムによるものか、非人間的なメカニズムによるものかという疑問を提起するとともに、HFTPを計算言語学と認知神経科学を橋渡しする貴重なツールとして確立するものである。本プロジェクトはhttps://github.com/LilTiger/HFTPで公開されている。
DeepSeek-R1の登場により、強化学習(RL)手法の新たな波が生まれ、より強力な数学的推論を可能にしているように見える。しかし、オープンソースのエコシステムを詳しく見ると、重要な限界が明らかになる。十分な数の試行(例:pass@1024)を行うと、多くの既存のベースモデルは、MATH-500やAIME 2024などの広く使用されている数学ベンチマークのほぼすべての問題をすでに解決している。これは、LLM推論文献で主流となっているRLファインチューニング手法が、既存の解決モードを鋭くするだけで、全く新しいモードを発見するものではないことを示唆している。このような鋭さは、RLのより広範な約束、すなわち探索を促進し、新しいスキルを獲得することとは対照的である。この高原状態を超えるために、我々はMATH-Beyond(MATH-B)を導入する。これは、大規模なサンプリング予算の下でも、最大8Bパラメータの一般的なオープンソースモデルを打ち負かすように意図的に構築されたベンチマークである。我々のベンチマークでのパフォーマンスをRLによって改善するためには、ベースモデルの能力を超えた推論方法を繰り返しサンプリングする手法が必要である。問題はDAPO-Math-17KとDeepScaleRデータセットのサブセットから抽出されているため、トピック的には標準的な高校数学と同等である。Nemotron-Research-Reasoning-Qwen-1.5BやDeepScaleR-1.5B-PreviewなどのRLファインチューニングモデルが、pass@1024でMATH-Bにおいて低いパフォーマンスを示すことで、既存のアプローチがより難しいインスタンスに対処するのに不十分であることが検証された。我々は、MATH-Bが、より深い推論能力を引き出す探索駆動型RLアプローチの触媒となることを期待している。MATH-Bはhttps://huggingface.co/datasets/brendel-group/MATH-Beyondで公開されている。
リモート推論により、軽量なデバイスが強力なクラウドモデルを活用することが可能となる。しかし、通信ネットワークの遅延により、予測が古くなり、リアルタイムタスクには不適切となる。この問題に対処するため、我々はDedelayedを提案する。これは任意のリモート推論遅延を軽減する遅延補正手法であり、ローカルデバイスがリアルタイムで低遅延の出力を生成することを可能にする。本手法では、軽量なローカルモデルが現在のフレームを処理し、重いリモートモデルが過去のフレームから計算した特徴を融合する。BDD100K運転データセットの映像において、Dedelayedは、33 msを超えるすべての現実的な通信ネットワーク遅延において、ローカルのみまたはリモートのみのベースラインのうちより強いものよりもセマンティックセグメンテーションの精度を向上させる。追加の遅延を発生させることなく、100 msの往復遅延において、完全なローカル推論と比較して6.4 mIoU、リモート推論と比較して9.8 mIoUの精度向上を実現する。この利点は、より長い遅延や動きの激しいシーンにおいてさらに大きくなり、遅延軽減型の分割推論が精度をより効果的に維持し、現在の世界の状態と同期し続けなければならないリアルタイムタスクに対して明確な利点を提供する。
推論モデルは、推論時のスケーリングを通じて問題解決能力を向上させ、より長いトークン予算を割り当てることで計算リソースを増やします。どの推論トレースが成功しそうかを特定することは、依然として重要な機会です:生産的なパスを確実に予測することで、無駄な計算を大幅に削減し、全体の効率を向上させることができます。本論文では、中間推論トークンの生成中にモデルの内部表現の時間的進化を特徴づける「潜在軌跡(Latent-Trajectory)信号」を導入します。推論の開始時と終了時の潜在表現の全体的な変化、中間ステップで蓄積された変化、およびこれらの変化が最終状態に向かって進む程度を測定することで、これらの信号が、層間メトリクスや出力ベースの信頼度指標よりも、解の精度をより確実に予測することを示します。複数のサンプル生成にわたる回答選択を導くために使用すると、潜在軌跡信号は、多数決よりもテスト時のスケーリングをより効果的かつ効率的にし、トークン使用量を最大70%削減しながら、平均2.6%の精度向上を実現します。さらに、これらの予測信号はしばしば推論トレースの早期に現れ、最も有望な候補への早期選択と計算リソースの割り当てを可能にします。我々の知見は、推論時の効率化のための実践的な戦略だけでなく、推論プロセスが潜在空間でどのように表現され区別されるかについての深い解釈可能性の視点も提供します。
大規模言語モデル(LLMs)の出現は、ゲーム環境における動的な非プレイヤーキャラクター(NPCs)の作成に新たな機会をもたらし、機能的なタスク実行と人物像に一貫した対話生成の両方を可能にした。本論文では、我々(Tu_Character_lab)が参加したCommonsense Persona-Grounded Dialogue Challenge(CPDC)2025 Round 2について報告する。このチャレンジでは、タスク指向対話、文脈認識対話、およびそれらの統合という3つのトラックにわたってエージェントを評価する。我々のアプローチは、2つの補完的な戦略を組み合わせたものである:(i)APIトラックにおける軽量なプロンプティング技術。これには、過剰なロールプレイを抑制しタスクの忠実度を向上させるためのDeflanderizationプロンプティング手法を含む。(ii)GPUトラックにおけるファインチューニングされた大規模モデル。Qwen3-14Bを教師ありファインチューニング(SFT)とLow-Rank Adaptation(LoRA)を活用して使用した。我々の最良の提出結果は、Task 1で2位、Task 3(APIトラック)で2位、Task 3(GPUトラック)で4位となった。
推論は単に問題を解決することだけではなく、どの問題が解決する価値があるかを評価することでもある。人工知能(AI)システムの評価は、歴史的にチェスや囲碁などのゲームをプレイするモデルを研究することで、主に問題解決に焦点を当ててきた。本論文では、AIシステムがゲームを評価する能力を評価する新しいパラダイムを提唱する。まず、そのような評価を評価するための形式体系を紹介する。次に、100以上の新しいボードゲームと450以上の人間の判断からなる大規模なデータセットを活用し、現代の言語モデルや推論モデルが生成する評価を、人間や記号的な計算エージェントの評価と比較する。我々は、ゲームの報酬(または公平性)と楽しさを評価するという2種類の評価クエリを考察する。これらのクエリは、AI評価の設計に関連する2つの次元、すなわちクエリの計算の複雑さとクエリの定量化の難しさにまたがる。結果として、推論モデルは非推論型の言語モデルよりも、ゲームの評価において人間との整合性が高いことが示された。しかし、モデルがゲーム理論的に最適に近づくにつれて、人間のデータとの適合性が弱まるという非単調な関係が観察された。また、楽しさの評価においては、このクエリの定量化の難しさに応じて、モデル間でより「ギザギザした」結果が観察された。クエリとゲーム全体を通じて、推論モデルはクエリを評価する際に非常に変動的で予測不可能なリソース使用を示し、言語モデルや推論モデルにリソース合理的なメタ推論を組み込むことの重要性が指摘された。