翻訳付きの日次キュレーションされたAI研究論文
Diffusion Transformer (DiT) モデル、特にビデオ生成において、長いシーケンス長と二次的な計算複雑性により、アテンションのレイテンシが主要なボトルネックとなっている。本研究では、アテンション重みが、高ランクの大きな重みの小さな部分と、非常に低ランクの残りの重みの2つに分離可能であることを発見した。この発見に基づき、前者にはスパース加速を、後者には低ランク加速を適用することが自然に導かれる。この知見を基に、我々はSLA(Sparse-Linear Attention)を提案する。SLAは、スパースアテンションと線形アテンションを融合させた学習可能なアテンション手法であり、拡散モデルの高速化を実現する。SLAはアテンション重みを、クリティカル、マージナル、ネグリジブルの3つのカテゴリに分類し、クリティカルな重みにはO(N^2)のアテンションを、マージナルな重みにはO(N)のアテンションを適用し、ネグリジブルな重みはスキップする。SLAはこれらの計算を単一のGPUカーネルに統合し、順方向および逆方向の計算をサポートする。SLAを用いたわずかなファインチューニングにより、DiTモデルはアテンション計算を20倍削減し、生成品質を損なうことなく大幅な高速化を実現する。実験結果から、SLAはエンドツーエンドの生成品質を低下させることなくアテンション計算を95%削減し、ベースライン手法を上回る性能を示す。さらに、SLAのための効率的なGPUカーネルを実装し、Wan2.1-1.3Bにおいてアテンション計算で13.7倍、ビデオ生成のエンドツーエンドで2.2倍の高速化を達成した。
言語内容を捉えるように設計された一般的な意味的音声トークナイザーは、驚くほど脆弱であることがわかります。意味に関係ない音響的摂動に対して頑健ではなく、音声が完全に明瞭な高い信号対雑音比(SNR)においても、出力されるトークン系列が劇的に変化し、下流の大規模言語モデル(LLM)の学習負荷を増大させます。この不安定性は、2つの欠陥に起因しています:脆弱な単一路量子化アーキテクチャと、中間トークンの安定性に無関心な遠い訓練信号です。この問題を解決するため、我々はStableTokenを導入します。これは、コンセンサス駆動型のメカニズムを通じて安定性を実現するトークナイザーです。そのマルチブランチアーキテクチャは音声を並列処理し、これらの表現は強力なビット単位の投票メカニズムを介して統合され、単一の安定したトークン系列を形成します。StableTokenは、トークン安定性において新たな最先端を確立し、多様なノイズ条件下でのユニット編集距離(UED)を大幅に削減します。この基礎的な安定性は、直接的に下流の利点に変換され、様々なタスクにおけるSpeechLLMの頑健性を大幅に向上させます。
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)を人間の選好に合わせるための標準的なパラダイムとして登場しました。しかし、Bradley-Terry仮定に基づく報酬ベースの手法は、現実世界の選好の非推移的かつ異質な性質を捉えるのに苦労しています。この問題に対処するため、最近の研究では、アラインメントを2プレイヤーのナッシュゲームとして再定義し、人間のフィードバックからのナッシュ学習(NLHF)を生み出しました。この視点は、INPO、ONPO、EGPOといった強力な理論的および経験的保証を持つアルゴリズムを生み出しましたが、これらは基本的に2プレイヤーの相互作用に限定されており、単一の対戦相手バイアスが生じ、現実的な選好構造の完全な複雑性を捉えることができません。本研究では、NLHFをマルチプレイヤーレジームに一般化する新しいフレームワークであるMultiplayer Nash Preference Optimization(MNPO)を紹介します。このフレームワークは、アラインメントをnプレイヤーゲームとして定式化し、各ポリシーが参照モデルに向けて正則化されながら、対戦相手の集団と競争します。私たちのフレームワークは、マルチプレイヤー設定で明確なナッシュ均衡を確立し、近似品質を定量化するために双対ギャップの概念を拡張します。MNPOが2プレイヤー手法の均衡保証を継承しながら、より豊かな競争ダイナミクスと多様な選好構造のカバレッジを可能にすることを示します。包括的な経験的評価を通じて、MNPOが指示追従ベンチマークにおいて既存のNLHFベースラインを一貫して上回り、異質なアノテーター条件や混合ポリシー評価シナリオ下で優れたアラインメント品質を達成することを示します。これらの結果は、MNPOが複雑で非推移的な人間の選好にLLMを合わせるための原則的でスケーラブルなフレームワークとして確立されることを示しています。コードはhttps://github.com/smiles724/MNPOで公開されています。
画像生成と編集のための統一マルチモーダルモデルの性能は、そのトレーニングデータの品質と包括性に根本的に制約されています。既存のデータセットは、スタイル転送や単純なオブジェクト操作などの基本的なタスクをカバーしていますが、実世界のアプリケーションに必要な体系的な構造と挑戦的なシナリオを欠いていることが多いです。このボトルネックを解決するために、階層的タスク分類法と自動化されたデータ生成を組み合わせた新しい方法論を用いて構築された大規模データセットであるOpenGPT-4o-Imageを紹介します。私たちの分類法は、テキストレンダリングやスタイル制御などの基本的な能力だけでなく、化学イラストのための科学的イメージや、複数の操作を同時に実行する必要がある複雑な指示編集などの非常に実用的でありながら挑戦的なカテゴリーも含んでいます。構造化されたリソースプールとGPT-4oを活用した自動化パイプラインを通じて、11の主要ドメインと51のサブタスクをカバーする80,000の高品質な指示-画像ペアを制御された多様性で生成します。広範な実験により、私たちのデータセットで主要なモデルをファインチューニングすることで、複数のベンチマークで大幅な性能向上が達成され、編集タスク(UniWorld-V1 on ImgEdit-Bench)で最大18%、生成タスク(Harmon on GenEval)で13%の改善が見られました。私たちの研究は、体系的なデータ構築がマルチモーダルAIの能力を進歩させる鍵であることを示しています。
検証可能な報酬のための強化学習(RLVR)における主流の見解は、最近の進歩を探索と活用のトレードオフというレンズを通じて解釈しており、この視点は主にトークンレベルの指標によって形作られています。私たちはこの視点を再検討し、この認識されたトレードオフが根本的な制約ではなく、むしろ測定レベルに起因する人工物である可能性を提案します。これを調査するため、分析を意味的に豊かな隠れ状態空間にシフトし、探索を定量化するために有効ランク(ER)を採用し、活用のダイナミクスを捉えるためにその新たな一次および二次微分である有効ランク速度(ERV)と有効ランク加速度(ERA)を提案します。私たちの分析は、隠れ状態レベルでは探索と活用が分離可能であることを明らかにします(第4章)。この発見は、両方の能力を同時に強化する機会を提示します。この洞察が、私たちの手法であるVelocity-Exploiting Rank-Learning(VERL)を動機づけます。VERLは、RLのアドバンテージ関数を直接形成することで、探索と活用の相乗的強化の原則を初めて実践するものです。重要な革新は、理論的に安定したERAを予測メタコントローラーとして活用し、相乗的なデュアルチャネルのインセンティブ構造を作り出すことです。トレードオフを強制する代わりに、VERLは探索に対する報酬を事前に増幅して過信を防ぎ、推論を強化するために活用による利益を強化します。多様なLLMと推論ベンチマークでの実験は、挑戦的なGaokao 2024データセットで最大21.4%の絶対精度向上を含む一貫した成果を示しています。
拡散言語モデル(DLMs)は理論的に高い効率性を有するが、固定長デコードとキー・バリュー(KV)キャッシュとの非互換性によって制限されている。ブロック拡散はこれらの問題を緩和するが、依然として固定ブロックサイズを強制し、高コストな訓練を必要とする。本研究では、次トークン予測と次ブロック予測を統合するNext Sequence Prediction(NSP)を提案し、モデルが各ステップで生成長を適応的に決定できるようにする。長さが1に固定された場合、NSPは標準的な次トークン予測に帰着する。NSPを基盤として、事前訓練された自己回帰言語モデル(ALMs)を最小限のコストで改造可能なSequential Diffusion Language Model(SDLM)を提案する。具体的には、SDLMは固定サイズのマスクブロック内で拡散推論を行うが、モデルの信頼度に基づいて連続する部分列を動的にデコードするため、KVキャッシュとの互換性を維持し、シーケンス全体の不確実性や意味論的変動に対する頑健性を向上させる。実験結果から、SDLMはわずか350万の訓練サンプルで強力な自己回帰ベースラインを匹敵または凌駕し、Qwen-2.5比で2.1倍のスループットを達成することが示された。特に、SDLM-32Bモデルはさらに顕著な効率向上を示し、本モデリングパラダイムの強力なスケーラビリティの可能性を実証している。プロジェクトページとコードは以下に公開されている:https://github.com/OpenGVLab/SDLM
視覚的理解と生成を統合したマルチモーダルモデルは、汎用AIに向けた重要な進展を表しています。しかし、既存のベンチマークでは、このアーキテクチャの統合が実際に構成要素間の相乗的相互作用を可能にするかという根本的な疑問に答えられていません。理解と生成を個別に評価する既存の評価パラダイムでは、統合モデルがその理解力を活用して生成を強化したり、生成的シミュレーションを用いてより深い理解を促進したりできるかを判断するには不十分です。この重要なギャップを埋めるため、我々は双方向の能力相乗性を評価するために特別に設計されたベンチマーク「RealUnify」を導入します。RealUnifyは、10のカテゴリーと32のサブタスクにまたがる1,000の入念に人間が注釈を付けたインスタンスで構成されています。その構造は2つの核心軸を中心に展開されます:1)「理解が生成を強化する」では、常識や論理などの推論を必要とする画像生成が求められ、2)「生成が理解を強化する」では、変換されたり無秩序な視覚入力を再構築する精神的シミュレーションが必要な推論タスクが課されます。重要な貢献は、直接的なエンドツーエンド評価と、タスクを個別の理解と生成の段階に分解する診断的段階的評価を組み合わせた二重評価プロトコルです。このプロトコルにより、パフォーマンスのボトルネックが中核能力の欠如によるものか、それらの統合の失敗によるものかを正確に識別できます。12の主要な統合モデルと6つの専門的ベースラインの大規模評価を通じて、現在の統合モデルは効果的な相乗性を達成するのに依然として苦戦しており、アーキテクチャの統合だけでは不十分であることが明らかになりました。これらの結果は、統合モデリングの可能性を最大限に引き出すためには、新しいトレーニング戦略と帰納的バイアスが必要であることを強調しています。
SANA-Videoを紹介する。これは、720x1280解像度で分単位の長さの動画を効率的に生成できる小型拡散モデルである。SANA-Videoは、RTX 5090 GPU上で展開可能な高速な処理速度で、高解像度・高品質かつ長時間の動画を強力なテキスト-動画の整合性を持って合成する。効率的で効果的かつ長時間の動画生成を実現するための2つのコア設計がある:(1) Linear DiT:ビデオ生成において処理される大量のトークンを考慮し、バニラアテンションよりも効率的な線形アテンションをコア操作として活用する。(2) Block Linear Attentionのための定数メモリKVキャッシュ:線形アテンションの累積特性から導出される定数メモリ状態を採用し、ブロック単位の自己回帰的アプローチを設計することで、長時間の動画生成を可能にする。このKVキャッシュは、固定メモリコストでLinear DiTにグローバルコンテキストを提供し、従来のKVキャッシュを不要とし、効率的な分単位の動画生成を実現する。さらに、効果的なデータフィルタとモデルトレーニング戦略を探求し、64台のH100 GPU上でのトレーニングコストを12日に短縮し、MovieGenのコストのわずか1%に抑えた。低コストであるにもかかわらず、SANA-Videoは現代の最先端の小型拡散モデル(例:Wan 2.1-1.3BやSkyReel-V2-1.3B)と比較して競争力のある性能を達成し、測定されたレイテンシでは16倍高速である。さらに、SANA-VideoはNVFP4精度でRTX 5090 GPU上に展開可能であり、5秒間の720p動画生成の推論速度を71秒から29秒に加速する(2.4倍の高速化)。要約すると、SANA-Videoは低コストで高品質な動画生成を可能にする。
AI科学者は、発見における共同パートナーとして機能する計算システムを構築しつつある。しかし、これらのシステムはカスタムメイドであり、厳格なワークフローに縛られ、ツール、データ、分析を共通のエコシステムに統合する共有環境が欠如しているため、構築が困難である。オミクス分野では、統一されたエコシステムが相互運用性、再利用性、コミュニティ主導の開発を可能にすることで研究を変革してきた。AI科学者にも同様のインフラが必要である。我々は、オープンまたはクローズドのいずれの言語や推論モデルからでもAI科学者を構築するためのエコシステムであるToolUniverseを提案する。TOOLUNIVERSEは、AI科学者がツールを識別し呼び出す方法を標準化し、データ分析、知識検索、実験設計のための600以上の機械学習モデル、データセット、API、科学パッケージを統合する。AI科学者が正しく使用できるようにツールインターフェースを自動的に改良し、自然言語の記述から新しいツールを作成し、ツール仕様を反復的に最適化し、ツールをエージェントワークフローに組み立てる。高コレステロール血症の事例研究では、ToolUniverseを使用して、良好な予測特性を持つ薬剤の強力なアナログを特定するAI科学者を作成した。オープンソースのToolUniverseはhttps://aiscientist.toolsで利用可能である。
推論能力を備えた大規模言語モデル(LLMs)は、幅広いタスクにおいて最先端の性能を達成しています。その実証的な成功にもかかわらず、推論が効果を発揮するタスクやモデル規模、およびその学習と推論コストについては、まだ十分に検討されていません。本研究では、合成データ蒸留フレームワークを活用し、大規模な教師あり学習の調査を行います。数学中心および汎用タスクにおいて、複数選択形式と自由回答形式の両方で、様々なサイズの指示微調整(IFT)モデルと推論モデルを比較します。分析の結果、推論は一貫してモデルの性能を向上させ、しばしば大幅に大きなIFTシステムに匹敵またはそれを上回ることが明らかになりました。特に、IFTは学習と推論コストにおいてパレート最適である一方、推論モデルはモデル規模が大きくなるにつれてその価値を増し、推論集約型および自由回答型タスクにおいてIFTの性能限界を克服することが示されました。
強化学習に基づくポストトレーニングは、マルチモーダル大規模言語モデル(MLLM)のアライメント能力と推論能力を強化するための強力なパラダイムとして最近注目を集めています。視覚中心のポストトレーニングは、MLLMの視覚信号に対する本質的な理解を高める上で重要ですが、現在のポストトレーニングパラダイムは主にテキスト中心であり、高密度の視覚入力を利用してテキストベースの推論のための疎な手がかりを抽出するのみです。この方向性にはいくつかのアプローチが存在しますが、それらは依然としてテキストを中間媒体として依存したり、追加の視覚生成デザインを導入したりすることが多いです。本研究では、MLLMの視覚理解を強化するために設計された汎用的な自己教師ありポストトレーニングフレームワークであるVisual Jigsawを紹介します。Visual Jigsawは一般的な順序付けタスクとして定式化されます:視覚入力が分割され、シャッフルされ、モデルは自然言語で正しい順列を生成することで視覚情報を再構築しなければなりません。これは検証可能な報酬からの強化学習(RLVR)と自然に整合し、追加の視覚生成コンポーネントを必要とせず、注釈なしで自動的に監督信号を導出します。Visual Jigsawを画像、ビデオ、3Dデータの3つの視覚モダリティにわたって具体化します。広範な実験により、細粒度の知覚、時間的推論、3D空間理解における大幅な改善が実証されています。本研究の結果は、ポストトレーニングMLLMにおける自己教師あり視覚中心タスクの可能性を強調し、視覚中心のプレテキストデザインに関するさらなる研究を促すことを目的としています。プロジェクトページ: https://penghao-wu.github.io/visual_jigsaw/
指示に基づく画像編集は目覚ましい進歩を遂げてきたが、現在のモデルは複雑な指示に対応する際に課題を抱えており、望ましい結果を得るために複数のサンプルを必要とすることが多い。強化学習(RL)は有望な解決策を提供するが、高精度で効率的な報酬信号の欠如により、画像編集分野での採用は大きく阻まれてきた。本研究では、この障壁を克服するための包括的な方法論を提示し、最先端の専門的な報酬モデルの開発を中心に据えている。まず、編集品質に関する報酬モデルを体系的に評価するための包括的なベンチマークであるEditReward-Benchを導入する。このベンチマークを基に、指示に基づく画像編集の品質を評価するための一連の報酬モデル(7B-72B)であるEditScoreを開発した。緻密なデータキュレーションとフィルタリングを通じて、EditScoreは学習型の独自の視覚言語モデル(VLM)の性能に匹敵する効果を発揮する。さらに、EditScoreの生成特性に特化した効果的な自己アンサンブル戦略と組み合わせることで、最大規模のバリアントはベンチマークにおいてGPT-5を凌駕する結果を示した。次に、高精度な報酬モデルが画像編集におけるオンラインRLの鍵であることを実証する。実験結果から、最大規模のオープンソースVLMでさえ効果的な学習信号を提供できない一方で、EditScoreは効率的かつ堅牢なポリシー最適化を可能にすることが明らかになった。強力なベースモデルであるOmniGen2に本フレームワークを適用した結果、最終モデルは大幅かつ一貫した性能向上を示した。全体として、本研究はベンチマークから報酬モデリング、RLトレーニングに至る画像編集分野における最初の体系的な道筋を提供し、高精度でドメイン特化した報酬モデルがこの分野におけるRLの真の可能性を引き出す鍵であることを示している。
視覚言語モデル(VLMs)は、画像とテキストの統一的なモデリングを実現し、知覚、計画、推論を通じて複雑な現実世界のタスクを達成することを可能にします。これらのタスクの中でも、推論は特に代表的なものであり、数学的推論はその顕著な例です。これは、VLMsが画像内の数学的情報を理解し、高度な推論を行う能力の高さを示しています。最近、多くの視覚的数学的推論ベンチマークが提案されていますが、それらはしばしば幾何学に限定され、数学文章問題のカバー範囲が不足しており、複数の画像にわたる推論を評価することは稀です。これらのギャップを埋めるため、我々はGSM8K-Vという純粋に視覚的な複数画像数学的推論ベンチマークを導入します。GSM8K-Vは、広く使用されているテキストベースのGSM8Kの各サンプルを体系的に視覚形式にマッピングすることで構築されています。慎重に設計された自動画像生成パイプラインと緻密な人間によるアノテーションを組み合わせ、1,319の高品質なサンプルをキュレーションしました。我々は、オープンソースおよびクローズドソースの幅広いモデルをGSM8K-Vで評価します。結果は、既存のVLMsがテキストベースのGSM8Kではほぼ飽和した性能を示しているものの、GSM8K-Vではまだ大幅な改善の余地があることを示しています。例えば、最高性能のモデルであるGemini-2.5-Proは、GSM8Kでは95.22%の精度を達成していますが、GSM8K-Vでは46.93%に留まります。我々はGSM8K-Vの包括的な分析を行い、現在のモデルの限界と改善の可能性のある方向性を検証します。GSM8K-Vは、視覚的数学的推論に関する新たな視点を提供し、より堅牢で汎用性の高いVLMsの開発を導くベンチマークを確立します。
大規模言語モデル(LLM)のステアリングは、隠れ状態を対象的に操作することで推論時のモデル挙動を制御する有望なパラダイムとして登場し、高コストな再学習に代わる軽量な代替手段を提供しています。しかし、既存のステアリングフレームワークには重大な制約があります:計算効率の低さ、拡張性の限界、機能の制約が研究の進展と実用的な展開の両方を妨げています。本論文では、vLLM上に構築された高性能で拡張可能なLLMステアリングのための統一フレームワークであるEasySteerを提案します。本システムは、分析ベースおよび学習ベースの手法のためのプラグ可能なインターフェースを備えたモジュール型アーキテクチャ、細粒度のパラメータ制御、8つのアプリケーションドメイン向けの事前計算済みステアリングベクトル、そしてインタラクティブなデモンストレーションシステムを特徴としています。vLLMの最適化された推論エンジンとの深い統合により、EasySteerは既存のフレームワークに対して5.5~11.4倍の高速化を実現しています。広範な実験を通じて、過剰思考の軽減、幻覚の低減、その他の主要なアプリケーションにおける有効性が実証されています。EasySteerは、ステアリングを研究技術から本番環境対応の機能へと進化させ、展開可能で制御可能な言語モデルのための重要なインフラストラクチャを確立します。
拡散言語モデル(DLM)は自己回帰モデル(AR)に対する有望な代替手段を提供するが、既存のオープンソースのDLMは高い推論遅延に悩まされている。このボトルネックは主に、すべてのクエリ-キーペアを計算する際の注意機構の文脈長に対する二次的な複雑さに起因している。直感的に、この複雑さを軽減するための自然な戦略は、最も関連性の高い接続のみを保持する疎なパターンに注意を制限することである。このようなアプローチはARでは確立されており、注意は固定された明確に定義された疎なパターンに従う。しかし、DLMでは異なる疎性の挙動が観察される:(1)注意パターンはヘッド間で異なり、(2)各ヘッドの注意パターンはノイズ除去ステップ間で非常に類似しており、(3)初期のノイズ除去ステップが生成において重要である。これらの発見は、AR向けに設計された疎な注意手法がDLMとほとんど互換性がないことを示しており、ヘッド固有の構造を捉えられず、初期のノイズ除去ステップで適用すると生成品質が低下するリスクがある。これらの課題に対処するため、我々はDLM向けの新しい疎な注意手法であるSparseDを提案する。観察結果を活用し、SparseDはヘッド固有の疎なパターンを一度だけ事前計算し、すべてのステップで再利用する。これにより、各ノイズ除去ステップで疎なパターンを再計算する必要がなくなる。同時に、SparseDは初期ステップでは完全な注意を使用し、後で疎な注意に切り替えて生成品質を維持する。これらを組み合わせることで、SparseDは長文脈アプリケーションでのDLMの実用的で効率的なソリューションとして確立される。実験結果は、SparseDが損失のない加速を実現し、64kの文脈長と1,024のノイズ除去ステップにおいてFlashAttentionに対して最大1.50倍の高速化を達成することを示している。
ディープリサーチエージェント(DRA)は、複雑な調査を自律的に実施し、包括的なレポートを生成することが可能で、現実世界での強力なポテンシャルを示しています。しかし、既存の評価は主にクローズドエンドのベンチマークに依存しており、オープンエンドのディープリサーチベンチマークは依然として少なく、通常はパーソナライズされたシナリオを無視しています。このギャップを埋めるため、我々はパーソナライズドディープリサーチベンチを導入します。これは、DRAにおけるパーソナライゼーションを評価する最初のベンチマークです。このベンチマークは、10のドメインにわたる50の多様なリサーチタスクを、構造化されたペルソナ属性と動的な現実世界のコンテキストを組み合わせた25の本物のユーザープロファイルとペアリングし、250の現実的なユーザーとタスクのクエリを生成します。システムのパフォーマンスを評価するために、我々はPQR評価フレームワークを提案します。これは、(P) パーソナライゼーションの整合性、(Q) コンテンツの品質、(R) 事実の信頼性を同時に測定します。さまざまなシステムでの実験を通じて、パーソナライズドディープリサーチを扱う際の現在の能力と限界が明らかになりました。この研究は、真にパーソナライズされた次世代のAIリサーチアシスタントを開発し評価するための厳密な基盤を確立します。
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を向上させるための有望なパラダイムとして登場しました。現在の手法は主にPPOやGRPOなどのポリシー最適化フレームワークに依存しており、これらは現在のポリシーの価値を評価し、その評価に基づいてポリシーを改善するという一般化されたポリシー反復を採用しています。これらの手法は効果的ではあるものの、訓練の不安定性や多様性の崩壊に悩まされることが多く、複雑なヒューリスティックな工夫や慎重な調整を必要とします。我々は、数学的推論における標準的なRLVRが、決定論的な状態遷移、木構造のダイナミクス、および二値の終端報酬を持つ特殊な有限時間マルコフ決定過程として形式化できることを観察しました。規模は大きいものの、その基盤となる構造は、一般的な制御設定(例えば、PPOが開発されたような)よりも単純であり、既存の手法におけるいくつかの高度な技術が削減または省略可能であることを示唆しています。この洞察に基づき、我々は驚くべき結果を証明しました:最適な行動は、固定された一様ランダムポリシーのQ関数から回復可能であり、それによって一般化されたポリシー反復ループとそれに伴うヒューリスティックを回避できることを示しました。我々は、この原理を実践的かつスケーラブルなLLM数学推論アルゴリズムに変換するために、Random Policy Valuation for Diverse Reasoning(ROVER)を導入しました。これは、これらの一様ポリシーQ値に基づくソフトマックスから行動をサンプリングする、ミニマリストでありながら非常に効果的なRL手法です。ROVERは訓練全体を通じて多様性を維持し、複数の有効な経路の持続的な探索を可能にします。複数のベースモデルと標準的な数学的推論ベンチマークにおいて、ROVERは既存の強力で複雑な手法と比較しても、品質(pass@1で+8.2、pass@256で+16.8)と多様性(+17.6%)の両方で優れた性能を示しました。
ストリーミング動画生成は、インタラクティブな世界モデルやニューラルゲームエンジンの基本的な構成要素の一つとして、高品質で低遅延、かつ時間的に一貫した長尺動画ストリームを生成することを目的としている。しかし、既存の研究の多くは、長尺の生成動画において深刻な誤差蓄積に悩まされており、これが生成動画の品質を大幅に低下させることが多い。本研究では、誤差蓄積を最小限に抑えつつ長尺動画をストリーミング生成するための新たな手法「Rolling Forcing」を提案する。Rolling Forcingは、以下の3つの新たな設計を特徴とする。第一に、誤差伝播を加速する個別フレームの反復サンプリングではなく、複数のフレームを同時にノイズ除去する共同ノイズ除去スキームを設計する。この設計により、隣接フレーム間の厳密な因果関係が緩和され、誤差の増大が効果的に抑制される。第二に、長尺ストリーミング動画生成タスクに「アテンションシンク」メカニズムを導入し、初期フレームのキー値状態をグローバルコンテキストのアンカーとして保持することで、長期的なグローバル一貫性を向上させる。第三に、大幅に拡張されたノイズ除去ウィンドウ上で少ステップ蒸留を可能にする効率的な学習アルゴリズムを設計する。このアルゴリズムは非重複ウィンドウ上で動作し、自己生成履歴に基づく露出バイアスを軽減する。大規模な実験により、Rolling Forcingが単一のGPU上で数分間の動画をリアルタイムにストリーミング生成し、誤差蓄積を大幅に低減できることが示された。
最近のテキストからビデオ生成の進展により、ますます現実的で多様なコンテンツが生み出されていますが、その評価は視覚的品質、意味的整合性、物理的一貫性といった多面的な性質のため、依然として根本的な課題となっています。既存の評価ツールや報酬モデルは、単一の不透明なスコアに限定されていたり、解釈可能性が欠如していたり、粗い分析しか提供しないため、ビデオ品質評価の包括的な性質を捉えるには不十分です。本論文では、VideoScore2を紹介します。これは、視覚的品質、テキストとビデオの整合性、物理的/常識的一貫性を明示的に評価し、詳細な思考の連鎖(chain-of-thought)の根拠を生成する、多次元的で解釈可能かつ人間の判断に沿ったフレームワークです。私たちのモデルは、27,168の人間が注釈を付けたビデオを含む大規模データセットVideoFeedback2で訓練され、3つの次元にわたるスコアと推論の痕跡を使用し、教師あり微調整の2段階パイプラインとGroup Relative Policy Optimization(GRPO)を用いた強化学習を通じて分析の堅牢性を高めています。広範な実験により、VideoScore2は、ドメイン内ベンチマークVideoScore-Bench-v2で44.35(+5.94)の精度を達成し、4つのドメイン外ベンチマーク(VideoGenReward-Bench、VideoPhy2など)で平均50.37(+4.32)の性能を示し、解釈可能な評価を提供することで、Best-of-Nサンプリングのための効果的な報酬モデリングを通じて評価と制御可能な生成の間のギャップを埋めることを実証しています。プロジェクトページ: https://tiger-ai-lab.github.io/VideoScore2/
我々は、HunyuanImage 3.0を紹介する。これは、マルチモーダル理解と生成をオートレグレッシブフレームワーク内で統合したネイティブマルチモーダルモデルであり、その画像生成モジュールは公開されている。HunyuanImage 3.0の達成は、入念なデータキュレーション、先進的なアーキテクチャ設計、ネイティブなChain-of-Thoughtsスキーマ、段階的なモデル事前学習、積極的なモデル事後学習、そして大規模な学習と推論を可能にする効率的なインフラストラクチャといったいくつかの重要な要素に依存している。これらの進歩により、我々は合計800億以上のパラメータを有し、推論時にトークンごとに130億のパラメータが活性化されるMixture-of-Experts(MoE)モデルの学習に成功した。これは、現在までで最大かつ最も強力なオープンソース画像生成モデルである。我々は広範な実験を行い、テキストと画像の整合性および視覚的品質の自動評価と人間による評価の結果は、HunyuanImage 3.0が従来の最先端モデルに匹敵することを示している。HunyuanImage 3.0のコードと重みを公開することで、我々はコミュニティが最先端の基盤モデルを用いて新しいアイデアを探求できるようにし、ダイナミックで活気あるマルチモーダルエコシステムを促進することを目指している。すべてのオープンソース資産はhttps://github.com/Tencent-Hunyuan/HunyuanImage-3.0で公開されている。
RLはLLMに真に新しいスキルを教えるのか、それとも既存のスキルを活性化するだけなのか?この問いは、LLMのポストトレーニングにおけるRLの役割に関する現在進行中の議論の核心にある。一方では、教師ありファインチューニングを事前に行わなくてもRLで強力な実証結果が得られる。他方で、批評家たちは、RLが既存の推論戦略の重み付けを超える貢献はほとんどないと主張する。本研究は、LLMがRL中に既存のスキルを組み合わせることで真に新しいスキルを獲得できるという具体的な証拠を提供し、人間が新しい認知スキルを獲得する際の中心的なメカニズムの一つを反映している。データ汚染やその他の交絡因子を軽減し、タスクの複雑さを正確に制御するために、我々は調査のための合成フレームワークを開発した。具体的には、スキルを文字列変換関数f(x)の出力をxから推論する能力と定義する。LLMがRL前にfとgを既に学習している場合、我々の実験は、RLがそれらの未見の合成h(x)=g(f(x))を学習することを可能にすることを明らかにした。さらに、この合成能力は、RLトレーニング中に見られなかった2つ以上の関数の合成のようなより難しい問題にも一般化する。驚くべきことに、我々の実験は、ソースタスクで獲得された合成スキルが異なるターゲットタスクに転移することを示している。この転移は、ターゲットでの合成トレーニングなしでも起こり、ターゲットの基本的なスキルの事前知識のみを必要とする。我々の質的分析は、RLがモデルの推論行動を根本的に変化させることを示している。対照的に、同じデータを用いた次のトークントレーニングでは、これらの発見は得られない。我々の体系的な実験は、LLM学習に関する新たな洞察を提供し、基本的なスキルを持つベースモデルを最初に構築し、その後RLを使用して複雑な問題に対する高度で一般化可能なスキルを促進することの価値を示唆している。
強化学習(Reinforcement Learning, RL)は、特に推論モデルと組み合わせた場合に、人気のあるトレーニングパラダイムとして登場しました。効果的ではあるものの、RLは主に応答の生成に焦点を当てており、批判や反省を明示的に促進するメカニズムを欠いています。最近のいくつかの研究、例えばCritique-Fine-Tuning(CFT)やCritique-Guided-Distillation(CGD)は、大規模言語モデル(LLM)に批判する方法を明示的に教えることの利点を示しています。これらに触発され、我々はCritique Reinforcement Learning(CRL)を提案します。CRLでは、モデルは与えられた(質問、解決策)のペアに対して批判を生成することを求められます。報酬は、生成された批判の最終的な判断ラベルc({True, False})が、真の判断c^*と一致するかどうかのみによって決定されます。この点を基に、我々はCritique-Coderを導入します。Critique-Coderは、標準的なRLデータの20%をCRLデータに置き換えることで、RLとCRLのハイブリッドでトレーニングされます。我々は複数のモデル(Critique-Coder)をファインチューニングし、異なるベンチマークで評価することで、RLのみのモデルに対する利点を示します。Critique-Coderは、評価されたすべてのベンチマークで、RLのみのベースラインを一貫して上回ることが示されました。特に、我々のCritique-Coder-8Bは、LiveCodeBench(v5)で60%以上を達成し、DeepCoder-14BやGPT-o1などの他の推論モデルを上回りました。コード生成を超えて、Critique-Coderは、BBEHデータセットの論理推論タスクでのより良いパフォーマンスからも明らかなように、一般的な推論能力の向上も示しています。これは、コーディングデータセットへのCRLの適用が、一般的な推論能力と批判能力を強化し、幅広いタスクに転移可能であることを示しています。したがって、我々は、CRLがLLMの推論において標準的なRLの優れた補完として機能すると信じています。
大規模言語モデル(LLM)の推論タスクにおける最近のブレークスルーは、大規模で高品質なデータセットに大きく依存しています。これらのデータセットは通常、人間によるアノテーションが必要であり、スケーリングが困難です。データ合成や蒸留は有望な代替手段として考えられますが、既存の手法ではデータ品質の一貫性が保てず、モデルの進化する能力に動的に適応できないため、最適なトレーニング信号が得られないという課題があります。これらの制限を解決するため、我々はSocratic-Zeroを導入しました。これは、最小限のシード例から高品質なトレーニングデータを生成する完全自律型のフレームワークで、3つのエージェント(Teacher、Solver、Generator)の共進化を通じて実現されます。Solverは、成功した軌跡と失敗した軌跡の両方に対する選好フィードバックから学習し、推論を継続的に洗練させます。Teacherは、Solverの弱点に基づいて、次第に難易度の高い質問を適応的に作成します。そして、GeneratorはTeacherの質問設計戦略を蒸留し、スケーラブルで高忠実度のカリキュラム生成を可能にします。この閉ループシステムは、既存のタスクやラベルを必要とせず、自己改善型のカリキュラムを生成します。驚くべきことに、わずか100のシード質問から始めた我々のSocratic-Solver-8Bは、7つの数学的推論ベンチマーク(AMC23、AIME24-25、Olympiad、MATH-500、Minerva、GSM8K)において、従来のデータ合成手法に対して平均+20.2ポイントの向上を達成し、Qwen3およびGLM4シリーズモデルでも一貫した向上を示しました。さらに驚くべきことに、Socratic-Generator-32Bから生成された合成データは、これらのベンチマークにおいて、Qwen3-235B-A22B、DeepSeek-V3.1-671B、GPT-5、Gemini-2.5-Pro、Grok-4、Claude-4.1-Opusなどの他の最先端(SOTA)商用LLMを上回る性能を学生LLMに達成させました。
データ分析エージェントは、自動化された科学的発見とイノベーティブAIのビジョンを実現するための重要な触媒として台頭しつつあります。しかし、現在のアプローチは、プロプライエタリモデルに対するプロンプトエンジニアリングに大きく依存しており、オープンソースモデルは、多様なフォーマットの大規模データファイルや、現実世界の分析が要求する長期的で多段階の推論に対応するのに苦戦しています。本論文では、汎用的なデータ分析エージェントを構築するためのスケーラブルなデータ合成とエージェントトレーニングのレシピであるDataMindを紹介します。DataMindは、オープンソースのデータ分析エージェントを構築する際の3つの主要な課題、すなわち不十分なデータリソース、不適切なトレーニング戦略、不安定なコードベースのマルチターン展開に取り組みます。具体的には、DataMindは、1) 細粒度のタスク分類と再帰的な易から難へのタスク構成メカニズムを適用して、合成クエリの多様性と難易度を向上させます。2) 知識拡張された軌道サンプリング戦略と、モデルベースおよびルールベースのフィルタリングを採用します。3) SFTとRLの損失を組み合わせた動的に調整可能なトレーニング目標を設定します。4) メモリ効率が高く安定したコードベースのマルチターン展開フレームワークを提供します。DataMindを基盤として、データ分析タスクのための多様なドメイン、タスクカテゴリ、データファイルフォーマットを網羅した高品質な軌道セットであるDataMind-12Kをキュレーションしました。DataMind-12KでトレーニングされたDataMind-14Bは、複数のデータ分析ベンチマークで平均スコア71.16%を達成し、最強のプロプライエタリベースラインであるDeepSeek-V3.1とGPT-5を上回りました。また、DataMind-7Bも、スコア68.10%で全てのオープンソースモデルの中で最高のパフォーマンスを発揮しました。さらに、探索的試験から得られた経験的知見を分析実験に取り入れ、コミュニティに対してエージェントトレーニングに関する実践的な洞察を提供することを目指しています。DataMind-12KとDataMind-7B、14Bをコミュニティの将来の研究のために公開する予定です。
本研究では、3D基盤モデル(3DFMs)を高密度な新視点合成(NVS)に適用する問題を探求します。NeRFや3DGSによって推進された新視点合成の分野では大きな進展が見られるものの、現在のアプローチは依然としてStructure-from-Motion(SfM)から取得した正確な3D属性(例えば、カメラポーズや点群)に依存しており、低テクスチャや低オーバーラップのキャプチャでは遅くて脆弱です。最近の3DFMsは、従来のパイプラインに比べて桁違いの高速化を示し、オンラインNVSの大きな可能性を秘めています。しかし、その検証と結論のほとんどは疎視点設定に限定されています。本研究では、3DFMsを高密度視点に単純にスケーリングする際に、二つの根本的な障壁に直面することを明らかにしました:劇的に増加するVRAM負荷と、初期化に敏感な3Dトレーニングを劣化させる不完全な出力です。これらの障壁に対処するため、我々はVGGT-Xを導入しました。これには、1,000枚以上の画像にスケールするメモリ効率の良いVGGT実装、VGGT出力を強化する適応的グローバルアライメント、そして堅牢な3DGSトレーニング手法が含まれます。広範な実験により、これらの対策がCOLMAP初期化パイプラインとの忠実度ギャップを大幅に縮め、高密度なCOLMAPフリーNVSとポーズ推定において最先端の結果を達成することが示されました。さらに、COLMAP初期化レンダリングとの残存ギャップの原因を分析し、3D基盤モデルと高密度NVSの将来の発展に向けた洞察を提供します。プロジェクトページはhttps://dekuliutesla.github.io/vggt-x.github.io/で公開されています。
大規模言語モデル(LLM)は一般的な数学的推論において優れた性能を発揮しますが、専門的な技術数学では壊滅的な失敗を起こします。無線通信分野では、情報理論的限界の正確な操作、最適化制約、信号処理の定式化を必要とする問題において、最先端のモデルでさえも十分な性能を達成するのに苦労しています。本論文では、WirelessMathLMを紹介し、ドメイン固有の強化学習と検証可能な報酬を用いることで、コンパクトなモデル(0.5B-7Bパラメータ)がはるかに大規模なモデルに匹敵またはそれを上回る性能を発揮できることを示します。私たちの重要な洞察は、無線数学の問題が持つ「検証可能な正しさ」という独自の特性が、人間のフィードバックなしで効果的な強化学習を可能にするという点です。970の論文から4,027の問題を集めた包括的なベンチマーク、WirelessMathBench-XLを構築しました。二値検証報酬を用いたGroup Relative Policy Optimization(GRPO)により、教師ありウォームスタートなしでベースチェックポイントから直接モデルを訓練しました。7BモデルはWirelessMathBench-XLで39.5%の精度を達成し、GPT-4o(40.4%)に近づきながら、DeepSeek-R1(671B、57.4%)の約100分の1のパラメータ数で動作します。注目すべきは、GRPO訓練がすべてのモデル規模で性能をほぼ倍増させたことです(0.5B +11%、3B +103%、7B +81%)。さらに、一般的な数学ベンチマークへの正の転移も観察され、MATH、Minerva-Math、OlympiadBench、AMC、AIMEにおいて、これらのタスクでの訓練なしに平均+8.4ポイントの向上を達成しました。
継続的なモデルの改善と多面的なアラインメントを達成するためには、将来のモデルが自然な人間の相互作用から学ぶ必要があると我々は提唱する。現在の対話モデルは、事前に注釈付けされた専門家による人間のフィードバックを用いてアラインメントされている。本研究では、実世界のユーザー会話から直接学ぶ「人間の相互作用からの強化学習(Reinforcement Learning from Human Interaction, RLHI)」というパラダイムを導入する。我々は二つの補完的な手法を開発した:(1) ユーザーが自然言語で行うフォローアップ応答に基づいて不満足なモデル出力を修正する「ユーザーガイドによるリライトを用いたRLHI」、(2) ユーザーの長期的な相互作用履歴(ペルソナ)に基づく報酬モデルを通じて学習する「ユーザーベースの報酬を用いたRLHI」である。これらの手法は、ペルソナに基づく選好最適化を通じて、長期的なユーザーペルソナとターンレベルの選好を結びつける。WildChatから得られた会話データを用いて学習した結果、両方のRLHIバリアントは、パーソナライゼーションと指示追従において強力なベースラインを上回り、同様のフィードバックは推論ベンチマークでの性能も向上させた。これらの結果は、有機的な人間の相互作用が、パーソナライズされたアラインメントのためのスケーラブルで効果的な監督を提供することを示唆している。
空間知能は、形状の視覚化と変換、物体の心的回転、相対的な位置関係や包含関係の判断、数量の推定など、豊かな能力群を包含しています。しかし、これはマルチモーダル大規模言語モデル(MLLMs)にとって依然として重要な未解決の課題です。このギャップを埋めるため、我々はユークリッド幾何学の問題解決を代理タスクとして扱うことを提案します。具体的には、約3万問の平面および立体幾何学問題からなる精選されたマルチモーダルデータセット「Euclid30K」を入念に構築しました。モデルがこれらの幾何学問題からユークリッド原理を習得し適用できるようにするため、Group Relative Policy Optimization(GRPO)を用いてQwen2.5VLファミリーとRoboBrain2.0ファミリーをファインチューニングし、形状の識別、数のカウント、エンティティ間の関係付け、ユークリッド原理を用いた多段階の演繹的推論を行うようモデルを導きました。実験の結果、得られたモデルは4つの空間推論ベンチマーク(Super-CLEVR、Omni3DBench、VSI-Bench、MindCube)において、タスク固有の適応なしに大幅なゼロショット性能向上を達成しました。特に、Euclid30Kでのトレーニング後、評価された全てのモデルのVSI-Bench平均精度は34.5%から40.5%に上昇し、5.5ポイントの改善が見られました。その中でも、RoboBrain2.0-Euclid-7Bは49.6%の精度を達成し、従来の最先端モデルであるSpatial-MLLMを凌駕しました。我々の知る限り、幾何学中心のファインチューニングが視覚言語モデルに広く転移可能な空間スキルを付与できることを示した初めての体系的研究です。コードとEuclid30Kデータセットはhttps://zgca-ai4edu.github.io/Euclids_Giftで公開されています。
我々は、オムニモーダル理解と表現力豊かな長期的音声生成のための統一型Omni LLMであるMGM-Omniを提案する。音声合成を分離するカスケード型パイプラインとは異なり、MGM-Omniは「脳-口」設計を採用し、デュアルトラックのトークンベースアーキテクチャにより、マルチモーダル推論とリアルタイム音声生成を明確に分離する。この設計により、効率的なクロスモーダル相互作用と低遅延のストリーミング音声生成が可能となる。理解のためには、統一されたトレーニング戦略とデュアルオーディオエンコーダ設計により、多様な音響条件下での長尺音声知覚を実現する。生成のためには、チャンクベースの並列デコードスキームにより、テキストと音声のトークンレートギャップを狭め、推論を加速し、長時間にわたる安定した音色でのストリーミングゼロショット音声クローニングをサポートする。同時期の研究と比較して、MGM-Omniはこれらの能力を著しくデータ効率的なトレーニングで達成する。広範な実験により、MGM-Omniが既存のオープンソースモデルを上回り、長尺シーケンスにわたる音色同一性の保持、自然で文脈を意識した音声の生成、優れた長尺音声およびオムニモーダル理解を実現することが示された。MGM-Omniは、オムニモーダル理解と制御可能でパーソナライズされた長期的音声生成のための効率的なエンドツーエンドパラダイムを確立する。
大規模視覚言語モデル(LVLM)はマルチモーダルタスクにおいて高い性能を発揮するが、視覚的証拠を十分に活用せず、事前学習で記憶されたテキストパターンである言語事前分布(LP)に依存する傾向がある。これまでのLPの分析は主に入力-出力プロービングに依存しており、視覚がモデルの行動にいつ、どのように影響を与えるかを支配する内部メカニズムを明らかにすることに失敗していた。このギャップを埋めるため、我々はチェーン・オブ・エンベディングの観点から言語事前分布を体系的に分析する初めての研究を提示する。この分析では、層ごとの表現ダイナミクスを調査し、各モデルが視覚情報が隠れ表現を意味的に再形成し、デコードに影響を与え始める重要な層である視覚統合ポイント(VIP)を示す普遍的な現象を明らかにした。この観察に基づき、我々はVIPを超えた表現距離を集約し、視覚クエリが応答生成にどの程度強く影響を与えるかを定量化する総合視覚統合(TVI)推定器を導入した。9つの現代的なLVLMと6つのベンチマークにまたがる54のモデル-データセットの組み合わせにおいて、VIPが一貫して現れ、TVIが言語事前分布の強度を信頼性高く予測することを実証した。これにより、LVLMにおける言語事前分布を診断し理解するための原則に基づいたツールキットが提供される。
今日の大規模言語モデル(LLMs)は、多くの分野において強力な問題解決ツールとして機能しており、モデルサイズ、トレーニングデータセットの規模、および品質の向上に伴い、その能力はさらに強化され続けています。これは、業界全体での広範な研究と実験によって示されています。現在、最先端のモデルをトレーニングするためには、数十から数百ヨタフロップスの計算リソースが必要であり、時間、計算能力、エネルギーに対する莫大な投資が求められます。したがって、次世代のさらに高性能なLLMsを実現するためには、事前学習の効率化が不可欠です。8ビット浮動小数点(FP8)トレーニングは現在広く採用されていますが、4ビット浮動小数点(FP4)のようなさらに低い精度への移行は、計算速度とリソース利用効率のさらなる向上をもたらす可能性があります。しかし、このレベルの量子化は、トレーニングの安定性、収束性、および実装において課題を引き起こし、特に長いトークンホライズンでトレーニングされた大規模モデルにおいて顕著です。 本研究では、NVFP4フォーマットを使用した大規模言語モデル(LLMs)の安定かつ正確なトレーニングのための新しいアプローチを紹介します。私たちの手法は、ブロックレベルの外れ値を制限するためにランダムハダマード変換(RHT)を統合し、順方向および逆方向の両方のパスで一貫した表現を実現するための二次元量子化スキームを採用し、偏りのない勾配推定を実現するための確率的丸めを利用し、選択的な高精度層を組み込んでいます。私たちは、10兆トークンで120億パラメータのモデルをトレーニングすることでこのアプローチを検証しました。これは、これまでに公開されている4ビット精度での最長のトレーニング実行です。私たちの結果は、NVFP4ベースの事前学習技術を用いてトレーニングされたモデルが、FP8ベースラインと同等のトレーニング損失および下流タスクの精度を達成することを示しています。これらの発見は、NVFP4が私たちのトレーニングアプローチと組み合わさることで、低精度LLMトレーニングアルゴリズムにおける大きな前進を表していることを強調しています。
単眼深度推定(Monocular Depth Estimation, MDE)は、コンピュータビジョンにおける基盤的なタスクである。従来の手法は、データの不足と品質の制約により、その堅牢性が妨げられてきた。この課題を克服するため、我々はBRIDGEを提案する。これは、強化学習(RL)を最適化した深度から画像(Depth-to-Image, D2I)生成フレームワークであり、多様なソース深度マップから、20M以上の現実的かつ幾何学的に正確なRGB画像を合成し、それぞれに固有の正解深度をペアリングする。次に、このデータセットを用いて深度推定モデルを訓練し、教師モデルの疑似ラベルと正解深度を統合したハイブリッド監視戦略を採用することで、包括的かつ堅牢な訓練を実現する。この革新的なデータ生成と訓練パラダイムにより、BRIDGEは規模とドメイン多様性においてブレークスルーを達成し、既存の最先端手法を定量的に上回り、複雑なシーンの詳細捕捉においても一貫して優れた性能を発揮する。これにより、一般的かつ堅牢な深度特徴が促進される。コードとモデルはhttps://dingning-liu.github.io/bridge.github.io/で公開されている。
長文処理は、現代の大規模言語モデルにとって重要な能力である。しかし、標準的なTransformerアーキテクチャにおけるセルフアテンション機構は、長文を処理する際に深刻な計算量とメモリのボトルネックに直面する。学習可能なスパースアテンション手法は有望な解決策を提供するが、NSAなどの既存のアプローチは過剰な追加パラメータを導入し、従来の「短いシーケンスで事前学習し、長いシーケンスで微調整する」ワークフローを妨げるため、収束が遅く、高速化が困難である。これらの制限を克服するため、我々は密-疎切り替え可能なアテンションフレームワーク「InfLLM-V2」を提案する。InfLLM-V2は、短いシーケンスから長いシーケンスへモデルをシームレスに適応させる学習可能なスパースアテンションである。具体的には、InfLLM-V2はパラメータフリーなアーキテクチャ変更を通じて密アテンションパラメータを再利用し、短いシーケンスと長いシーケンスの処理間の一貫性を維持する。さらに、InfLLM-V2は、短い入力に対しては密アテンションを使用し、長いシーケンスに対してはスムーズにスパースアテンションに移行することで、すべてのシーケンス長において計算効率を確保する。実用的な高速化を実現するため、我々はInfLLM-V2の効率的な実装をさらに導入し、計算オーバーヘッドを大幅に削減した。長文脈理解と連鎖的推論に関する実験により、InfLLM-V2は密アテンションよりも4倍高速でありながら、それぞれ98.1%と99.7%の性能を維持することが示された。InfLLM-V2フレームワークに基づき、我々はハイブリッド推論モデル「MiniCPM4.1」(https://huggingface.co/openbmb/MiniCPM4.1-8B)を学習し、オープンソース化し、研究コミュニティに再現可能な実装を提供した。
視覚的パーソナライゼーションは、スマートホームやヘルスケアなどのユーザー向けAIシステムにおいて不可欠であり、モデルの挙動をユーザー中心の概念に合わせることが重要です。しかし、最近の大規模なVision-Languageモデル(VLM)は、その幅広い適用可能性にもかかわらず、個々のユーザーに適応する能力については未だ十分に探求されていません。本論文では、VLMのパーソナライゼーションを評価するための最初の大規模なベンチマークであるMMPBを紹介します。MMPBは10,000の画像-クエリペアを含み、人間、動物、物体、キャラクターの4つのカテゴリーにわたる111のパーソナライズ可能な概念を網羅しており、人間カテゴリーには嗜好に基づいたクエリが追加されています。パーソナライゼーションを3つの主要なタスクタイプに構造化し、それぞれがVLMの異なる重要な特性を強調しています。オープンソースおよびクローズドソースのモデルを含む23の広く使用されているVLMを用いて、3段階のプロトコル(概念注入、マルチターン対話、パーソナライズドクエリ)を通じてパーソナライゼーション性能を評価します。我々の調査結果は、ほとんどのVLM(一部のクローズドソースモデルを含む)がパーソナライゼーションに苦戦していることを示しており、特に対話の一貫性の維持、ユーザー嗜好の処理、視覚的キューへの適応において課題が見られます。我々の分析は、VLMのパーソナライゼーションにおける課題(拒否行動や長文脈の忘却など)が、改善の余地が大きいことを明らかにしています。これらの限界を特定し、スケーラブルなベンチマークを提供することで、MMPBは真にパーソナライズされたマルチモーダルAIに向けた将来の研究に貴重な洞察と堅固な基盤を提供します。プロジェクトページ: aidaslab.github.io/MMPB
本論文では、大規模推論モデル(LRM)に対してより効率的かつ正確な推論を可能にする、シンプルでありながら効果的な強化学習(RL)アプローチであるSIRI(Scaling Iterative Reinforcement Learning with Interleaved Compression)を紹介する。既存の研究では、LRMにおいて繰り返しの思考パターンが観察されており、これを削減しようとする試みはしばしば性能の低下を伴う。本論文では、このトレードオフを克服するために、トレーニング中に最大ロールアウト長を動的に調整することで、推論予算を圧縮と拡張の間で交互に繰り返すトレーニング体制を提案する。圧縮フェーズではロールアウト長を短縮し、モデルに限られた文脈内で正確かつ価値のある意思決定を強制することで、冗長なトークンを効果的に削減し、推論密度を高める。拡張フェーズでは長さ制限を緩和し、モデルが長期的な設定で探索と計画を行うための空間を提供する。注目すべきは、各圧縮-拡張サイクルの後、モデルの出力長が減少するにもかかわらず性能が向上し、性能と効率のトレードオフにおけるパレートフロンティアに着実に近づくことである。DeepSeek-R1-Distill-Qwen-1.5Bでのトレーニングにおいて、SIRI-lowは3回の反復後にAIME24での性能を43.2%向上させ、トークン使用量を46.9%削減し、SIRI-highは他のすべての手法と比較して最高の精度を達成した(図1)。我々の研究結果は、トレーニング中にLRMの出力切り捨て長を周期的に振動させることで、推論における探索と効率を動的にバランスさせ、両者の間の最適な「スイートスポット」に収束させる可能性を示唆している。我々のモデルは公開されている。
ビジョン言語モデル(VLM)ベースのGUIエージェントは、複雑なデスクトップおよびモバイルタスクの自動化において有望ですが、強化学習(RL)を適用する際に重大な課題に直面しています:(1)GUI環境との多段階インタラクションが遅く、ポリシーのロールアウトに時間がかかること、(2)ポリシー学習のための高品質なエージェントと環境のインタラクションが不十分であることです。これらの課題に対処するため、我々はDART(Decoupled Agentic RL Training)フレームワークを提案します。これは、GUIエージェントのために高度に分離された方法で異種モジュールを調整するものです。DARTは、トレーニングシステムを4つの非同期モジュールに分離します:環境クラスタ、ロールアウトサービス、データマネージャ、トレーナーです。この設計により、非ブロッキング通信、非同期トレーニング、ロールアウト単位の軌跡サンプリング、およびワーカーごとのモデル同期が可能となり、システム効率が大幅に向上します:ロールアウトのGPU利用率が1.6倍、トレーニングスループットが1.9倍、環境利用率が5.5倍になります。豊富なサンプルから効果的に学習するため、我々は適応型データキュレーションスキームを導入します:(1)オンラインサンプリングでの成功が稀な難しいタスクのために、事前に成功した軌跡を収集すること、(2)タスクの難易度に基づいてロールアウト数と軌跡の長さを動的に調整すること、(3)重要な意思決定を優先するために、高エントロピーのステップを選択的にトレーニングすること、(4)ポリシーロールアウトと更新の間のポリシーの不一致に対して、切り捨て重要度サンプリングを用いて学習を安定化することです。OSWorldベンチマークにおいて、DART-GUI-7Bは42.13%のタスク成功率を達成し、ベースモデルに対して14.61%の絶対的な向上を示し、オープンソースのSOTAよりも7.34%高い結果を出しました。我々は、トレーニングフレームワーク、データ、およびモデルチェックポイントをcomputer-use-agents.github.io/dart-guiを通じて完全にオープンソース化します。これは、エージェント強化学習トレーニングのオープンソースコミュニティへのタイムリーな貢献であると信じています。
ツール統合推論(Tool-Integrated Reasoning, TIR)は、外部ツールを統合することで大規模言語モデル(LLMs)の内部推論能力を向上させる手法である。しかし、TIRを採用したモデルは、ツールの使用が不十分または過剰であることや、ツール呼び出し後の過剰な思考といった最適でない振る舞いを示すことが多い。LLMsにTIRを効率的かつ正確に実行させ、推論プロセスを安定化させるためのインセンティブ設計は、未解決の課題である。本論文では、まず情報エントロピーの観点からツール呼び出しがモデルの推論に与える影響を探る。その結果、ツール呼び出しの結果は後続の推論の情報エントロピーに明確な変化をもたらし、推論連鎖全体のエントロピーはツール呼び出しの数に応じて変動することが明らかとなった。これらの知見に基づき、LLMsにTIRを効率的かつ正確に実行させることを目的としたフレームワーク「Tool-Light」を提案する。本フレームワークは、データセット構築と多段階のファインチューニングを含む。データセット構築では、ファインチューニングされたモデルを用いた連続的な自己進化サンプリングを採用し、通常のサンプリングとエントロピー誘導サンプリングを統合する。さらに、サンプリング中のポジティブ-ネガティブペアの選択に厳格な基準を設ける。訓練プロセスは、教師ありファインチューニング(Supervised Fine-Tuning, SFT)と自己進化直接選好最適化(Self-Evolved Direct Preference Optimization, DPO)の2段階アプローチを採用する。10のデータセットにおける実験結果は、Tool-LightがTIRタスクの実行効率を大幅に向上させる有効性を示している。
Test-Time Scaling (TTS)は、推論時に追加の計算リソースを割り当てることで、大規模言語モデル(LLMs)の推論能力を向上させます。しかし、既存のアプローチは主に出力レベルのサンプリングに依存しており、モデルアーキテクチャの役割を見落としています。主流のMixture-of-Experts(MoE)LLMsにおいて、活性化するエキスパートの数を変化させることで、安定した精度を保ちつつ補完的な解のセットが得られることを観察しました。これは、新たで未開拓の多様性の源を明らかにしています。この観察に基づき、我々はDynamic Experts Search(DES)を提案します。DESは、エキスパートの活性化を探索空間の制御可能な次元として高めるTTS戦略です。DESは2つの主要なコンポーネントを統合しています:(1)Dynamic MoEは、推論時にエキスパートの数を直接制御し、追加コストなしで多様な推論軌跡を生成します;(2)Expert Configuration Inheritanceは、推論パス内でエキスパートの数を一貫して保ちつつ、実行ごとにそれを変化させることで、探索全体で安定性と多様性のバランスを取ります。MoEアーキテクチャ、検証器、および推論ベンチマーク(数学、コード、知識)にわたる広範な実験により、DESがTTSのベースラインを確実に上回り、追加コストなしで精度と安定性を向上させることが実証されました。これらの結果は、DESが実用的でスケーラブルなアーキテクチャを意識したTTSの形態であることを強調し、現代のLLMsにおける構造的柔軟性が推論を進化させる方法を示しています。
大規模言語モデル(LLM)エージェントは、計画、記憶、反省、ツール使用モジュールを統合し、複雑な多段階タスクの解決において有望な成果を示しています。しかし、その洗練されたアーキテクチャは、単一の根本原因エラーがその後の意思決定に伝播し、タスク失敗に至るカスケード障害に対する脆弱性を増幅させます。現在のシステムには、エージェントのエラーをモジュール的かつ体系的に包括的に理解し、それに応じてこれらのエラーを検出するためのフレームワークが欠如しています。このギャップを埋めるために、我々は3つの貢献を行います。第一に、記憶、反省、計画、行動、システムレベルの操作にまたがる障害モードのモジュール分類であるAgentErrorTaxonomyを導入します。第二に、ALFWorld、GAIA、WebShopからの体系的に注釈付けされた失敗軌跡の最初のデータセットであるAgentErrorBenchを構築し、現実世界のエージェント展開に基づいたエラー分析を提供します。第三に、根本原因の失敗を特定し、修正フィードバックを提供するデバッグフレームワークAgentDebugを提案し、エージェントが回復し反復的に改善することを可能にします。AgentErrorBenchでの実験では、AgentDebugが最も強力なベースラインと比較して、全正解精度で24%、ステップ精度で17%高い結果を示しました。検出を超えて、AgentDebugが生成するターゲットフィードバックは、LLMエージェントが失敗から反復的に回復することを可能にし、ALFWorld、GAIA、WebShop全体でタスク成功率が最大26%向上しました。これらの結果は、原則に基づいたデバッグが、より信頼性が高く適応性のあるLLMエージェントへの道筋を確立することを示しています。コードとデータはhttps://github.com/ulab-uiuc/AgentDebugで公開されます。
大規模言語モデル(LLM)の蒸留に対する新たなアプローチを、制約付き強化学習問題として定式化することで提案する。近年の研究では、タスク固有の報酬を蒸留プロセスに統合する試みが始まっているが、既存の手法は一般的にアドホックな報酬の重み付けに依存している。本論文では、教師モデルからの乖離を指定された閾値以下に制約しつつ、タスク固有の報酬を最大化する原則に基づいた最適化フレームワークを提案する。本手法は、制約付き状態拡張強化学習を蒸留設定に適応させ、展開中に状態拡張や教師モデルへのアクセスを必要とせず、また双対ラグランジュ法の計算オーバーヘッドを伴わずに、制約満足の理論的保証を維持する修正報酬関数を導入する。数学的推論タスクにおける広範な実験を通じて、本手法がソフトラグランジュ緩和ベースラインと比較して、より優れた制約満足率と推論能力を達成しつつ、競争力のあるタスク性能を維持することを実証する。本フレームワークは、リソースが制約された環境における報酬を考慮した蒸留に対して、理論的に裏付けられ、実用的に効率的な解決策を提供する。
最近の進展、例えばDeepSeek-R1は、強化学習(RL)アプローチであるGRPOアルゴリズムが、大規模言語モデル(LLMs)や視覚言語モデル(VLMs)におけるChain-of-Thought(CoT)推論を効果的に訓練できることを示しています。本論文では、GRPOの3つの課題を分析します:思考と回答の間の勾配結合、限られた並列サンプリングによるスパースな報酬信号、そして不安定なアドバンテージ推定です。これらの課題を緩和するために、我々はGRPO-MAを提案します。これは、各思考プロセスから複数の回答を生成することを活用した、シンプルでありながら理論的に裏付けられた方法であり、より堅牢で効率的な最適化を可能にします。理論的には、思考ごとの回答数が増えるにつれて、思考アドバンテージの分散が減少することを示します。実験的には、勾配分析がこの効果を確認し、GRPO-MAがGRPOと比較して勾配スパイクを減少させることを示しています。数学、コード、多様なマルチモーダルタスクにおける実験は、GRPO-MAが性能と訓練効率を大幅に向上させることを実証しています。我々のアブレーション研究はさらに、思考ごとの回答数を増やすことがモデルの性能を一貫して向上させることを明らかにしています。
Video Joint Embedding Predictive Architectures (V-JEPA) は、指数移動平均 (EMA) で更新される教師モデルを用いて、潜在空間におけるマスク領域を予測することで、汎用的なオフ・ザ・シェルフのビデオ表現を学習します。EMA は表現の崩壊を防ぎますが、スケーラブルなモデル選択を複雑にし、教師と学生のアーキテクチャを密結合させます。我々はマスクされた潜在予測を再検討し、凍結された教師モデルで十分であることを示します。具体的には、(i) V-JEPA のマスキング下で単純なピクセル再構成目的関数を用いてターゲットエンコーダを訓練し、(ii) それを凍結して、学生モデルに教師モデルの潜在をマスク領域で予測させるように訓練します。これにより、我々が SALT (Static-teacher Asymmetric Latent Training) と呼ぶ、2段階の正則化なしのスキームが導かれます。SALT は最適化をピクセル再構成(教師)とマスクされた潜在予測(学生)に分離し、透明性、効率性、スケーラビリティを向上させながら、凍結評価下での表現の汎化能力を維持します。実験的に、我々の学生モデルは、多様なベンチマークにおいて、最近提案された V-JEPA 2 エンコーダを凍結バックボーン評価下で上回ります。また、計算効率も優れており、同等の事前訓練 FLOPs において、我々の手法はより高いプロービング精度を達成し、そのスケーリング曲線は V-JEPA の精度-FLOPs パレートフロンティアを支配します。最後に、学生モデルの品質は教師モデルの品質に対して驚くほど頑健であることがわかりました:小さく、最適でない教師モデルであっても、高性能な学生モデルが出現します。これは、計算予算の割り当てが学生モデルに圧倒的に偏るべきであることを示唆しています。これらの結果は、SALT を、ビデオ表現学習における EMA ベースの自己蒸留に対するシンプルでスケーラブル、かつ計算効率の良い代替手法として位置づけます。
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の幻覚を抑制するため、応答を検索された文書に基づかせることを目的としています。しかし、正しく十分な文脈が与えられた場合でも、RAGベースのLLMは依然として幻覚を起こします。最近の研究では、これは外部文脈の利用とモデルの内部知識の間の不均衡に起因するとされており、幻覚検出のためにこれらの信号を定量化するいくつかのアプローチが試みられています。しかし、既存の手法は広範なハイパーパラメータチューニングを必要とするため、汎用性が制限されています。本研究では、LUMINAという新しいフレームワークを提案します。LUMINAは、文脈-知識信号を通じてRAGシステムの幻覚を検出します:外部文脈の利用は分布距離によって定量化され、内部知識の利用はトランスフォーマー層間での予測トークンの進化を追跡することで測定されます。さらに、これらの測定値を統計的に検証するフレームワークを導入します。一般的なRAG幻覚ベンチマークと4つのオープンソースLLMを用いた実験では、LUMINAが一貫して高いAUROCおよびAUPRCスコアを達成し、HalluRAGにおいて従来の利用ベースの手法を最大+13% AUROCで上回りました。さらに、LUMINAは検索品質やモデルマッチングに関する緩和された仮定の下でも堅牢であり、効果性と実用性の両方を提供します。
事前学習済みの大規模言語モデル(LLM)を下流タスク向けにファインチューニングすることは、AIデプロイメントパイプラインにおける重要なステップです。強化学習(RL)は、おそらく最も注目されているファインチューニング手法であり、多くの最先端LLMの誕生に貢献してきました。一方、進化戦略(ES)は、かつて数百万パラメータのモデルにおいてRLと同等の性能を示したものの、より大規模なモデルへのスケーラビリティに対する悲観的な見方から、これまで軽視されてきました。本研究では、LLMの全パラメータをファインチューニングするためにESをスケールアップする初めての成功例を報告し、ESが数十億のパラメータを効率的に探索できるという驚くべき事実を示します。さらに、ESは既存のRLファインチューニング手法を複数の点で上回り、サンプル効率、長期的な報酬に対する耐性、異なるベースLLMに対するロバスト性、報酬ハッキングへの傾向の低さ、そして実行間の安定した性能を実現しました。これにより、現在のRL技術を超える新たなLLMファインチューニングの方向性を開拓する基盤が築かれます。ソースコードは以下で提供されています:https://github.com/VsonicV/es-fine-tuning-paper。
大規模言語モデル(LLM)が科学的推論にますます適用されるにつれ、回答形式の複雑さと等価表現の多様性により、回答検証は重要でありながらも困難な課題となっています。既存の科学的領域における検証研究は、以下の2つの主要な制約に直面しています:(a) 体系的な評価基準の欠如と分野カバレッジの不十分さにより、包括的な評価が妨げられていること、(b) 煩雑なルール設計やプロンプトエンジニアリングへの過度の依存により、複雑な推論シナリオでの有効性が低下したり、分野横断的な汎化が制限されたりしていることです。これらの課題に対処するため、我々はデータレベルとモデルレベルの両方で解決策を提案します。データ面では、数学、物理学、生物学、化学、および一般的な科学QAをカバーする学際的ベンチマーク「SCI-VerifyBench」を構築します。このベンチマークは実際のLLMの応答から構築され、ドメイン固有の等価変換を適用することで、挑戦的で現実的なデータを生成します。モデルベースおよび専門家によるアノテーションにより、品質と多様性が確保され、検証能力の厳密な評価が可能となります。モデル面では、検証における推論の重要性を強調し、科学的領域向けの統一された推論強化型検証器「SCI-Verifier」を導入します。ポストトレーニングを通じて、SCI-Verifierは強力な論理的推論と等価性判断能力を示しつつ、簡潔で安定した出力を維持します。SCI-VerifyBenchとSCI-Verifierを組み合わせることで、科学的検証のための原則に基づいたフレームワークを提供し、LLMの科学的領域における信頼性と適用性を向上させるための体系的な評価と実践的な道筋を提示します。
最近の推論LLM(RLM)、特に検証ベースの強化学習で訓練されたモデルは、直接回答と比較してfew-shot CoT(Chain-of-Thought)で性能が低下することが多い。このパラドックスを、DeepSeek-R1の高品質な推論トレースをデモンストレーションとして用いて再検証したところ、最適なデモンストレーションであっても、例を追加することで一貫して精度が低下することが明らかになった。詳細な分析により、この低下の背後にある2つのメカニズムが明らかになった:(i) 意味的誤誘導、すなわち高いテキスト的類似性により、モデルがターゲットを例と同じものと見なし、中間ステップを逐語的にコピーしてしまうこと;(ii) 戦略転移の失敗、すなわちモデルが有用な推論戦略を抽出し、ターゲット質問に適用することが困難であること。これらの知見を基に、Insight-to-Solve(I2S)を導入した。これは、デモンストレーションを明示的で再利用可能な洞察に変換し、ターゲット固有の推論トレースを導出する逐次的なテストタイム手順である。オプションとして、推論は一貫性と正確性のために自己精緻化される(I2S+)。多様なベンチマークでの広範な実験により、I2SとI2S+が、オープンソースおよびクローズドソースのモデルにおいて、直接回答やテストタイムスケーリングのベースラインを一貫して上回ることが示された。GPTモデルにおいても、本手法は有効であり、AIME'25ではGPT-4.1が+14.0%、o1-miniはAIMEで+2.7%、GPQAで+1.7%向上し、インコンテキストデモンストレーションが洞察-精緻化-解決フレームワークを通じて効果的に活用できることが示された。
既存のテキストから画像を生成する拡散モデルは、高品質な画像生成に優れていますが、4K画像生成のような高解像度にスケールする際には、効率性の面で大きな課題に直面しています。これまでの研究では、拡散モデルの高速化を様々な側面から進めてきましたが、潜在空間内の本質的な冗長性を扱うことはほとんどありませんでした。このギャップを埋めるため、本論文では、深く圧縮された潜在空間を活用してテキストから画像を生成する拡散モデルを高速化する汎用フレームワークであるDC-Genを提案します。DC-Genは、ゼロからモデルを訓練するというコストのかかるアプローチではなく、効率的なポストトレーニングパイプラインを使用して、ベースモデルの品質を維持します。このパラダイムにおける主要な課題は、ベースモデルの潜在空間と深く圧縮された潜在空間の間の表現ギャップであり、これは直接的なファインチューニング中に不安定性を引き起こす可能性があります。これを克服するため、DC-Genはまず、軽量な埋め込みアライメントトレーニングによって表現ギャップを橋渡しします。潜在埋め込みがアライメントされた後は、少量のLoRAファインチューニングを行うだけで、ベースモデルの本質的な生成品質を引き出すことができます。DC-Genの有効性をSANAとFLUX.1-Kreaで検証しました。結果として得られたDC-Gen-SANAとDC-Gen-FLUXモデルは、ベースモデルと同等の品質を維持しつつ、大幅な高速化を実現しています。具体的には、DC-Gen-FLUXは、NVIDIA H100 GPU上で4K画像生成のレイテンシを53倍削減します。NVFP4 SVDQuantと組み合わせることで、DC-Gen-FLUXは単一のNVIDIA 5090 GPU上でわずか3.5秒で4K画像を生成し、ベースのFLUX.1-Kreaモデルと比較して総レイテンシを138倍削減します。コード: https://github.com/dc-ai-projects/DC-Gen.
マスク拡散言語モデル(MDLM)は最近、自己回帰型(AR)言語モデルに代わる有望な選択肢として登場し、並列デコード、柔軟な生成順序、そしてより少ない推論ステップの可能性といった特性を提供しています。これらの利点にもかかわらず、MDLMに特化したデコード戦略や強化学習(RL)アルゴリズムはまだ十分に探求されていません。素朴なアプローチは、ARモデルで確立された技術を直接MDLMに転用することです。しかし、これには即座に疑問が生じます:そのような素朴な転用は本当に最適なのでしょうか?例えば、1)ブロック単位および半自己回帰型デコード戦略はMDLMの訓練中に使用されないのに、なぜ推論中に完全な拡散スタイルのデコードを上回るのか?2)ARモデル向けに設計されたRLアルゴリズムを直接MDLMに適用すると、MDLMのデコードが非因果的(並列的)であるため、訓練と推論の間に不整合が生じます。これにより、ロールアウト軌跡と最適化軌跡の間に不整合が生じます。これらの課題に対処するため、我々はEOS早期拒否(EOSER)と昇順ステップサイズ(ASS)デコードスケジューラを提案し、MDLMが完全な拡散スタイルのデコードを実行する可能性を引き出し、より少ないデコードステップで競争力のある性能を達成します。さらに、MDLMを制御するための一貫性軌跡グループ相対ポリシー最適化(CJ-GRPO)を導入し、ロールアウト軌跡と最適化軌跡の一貫性を強調し、スキップステップ最適化による最適化エラーを削減します。我々は、LLaDA-8B-Instructを使用して、数学や計画ベンチマークなどの推論タスクで広範な実験を行いました。結果は、提案されたEOSERとASSメカニズム、そしてCJ-GRPOが、MDLMを効果的かつ効率的に制御するための重要な可能性を秘めていることを示しています。コード:https://github.com/yjyddq/EOSER-ASS-RL。
自己回帰(AR)モデルは画像生成において有望であるが、連続トークンのAR変種はしばしば潜在拡散モデルやマスク生成モデルに後れを取る。その核心的な問題は、VAE潜在空間における不均一な分散であり、これは特に分類器不要ガイダンス(CFG)下でのARデコード中に増幅され、分散崩壊を引き起こす可能性がある。この問題に対処するため、我々はSphereARを提案する。その核心的な設計は、すべてのAR入力と出力(CFG後を含む)を固定半径の超球面上(一定のℓ₂ノルム)に制約することで、超球面VAEを活用するものである。理論的分析により、超球面制約がスケール成分(分散崩壊の主な原因)を除去し、それによってARデコードを安定化することが示された。実験的には、ImageNet生成において、SphereAR-H(943M)はARモデルの新たな最先端を達成し、FID 1.34を記録した。さらに小規模なモデルにおいても、SphereAR-L(479M)はFID 1.54、SphereAR-B(208M)は1.92を達成し、MAR-H(943M, 1.55)やVAR-d30(2B, 1.92)といったより大規模なベースラインを凌駕または同等の性能を示した。我々の知る限り、ラスター順序による純粋な次トークンAR画像生成器が、同等のパラメータ規模において拡散モデルやマスク生成モデルを上回ったのはこれが初めてである。
大規模言語モデル(LLM)は、Text-to-SQLタスクにおいてますます効果を発揮しています。しかし、別の密接に関連する問題である「クロスシステムSQL翻訳」(別名SQL-to-SQL)は、あるデータベースシステム(例:MySQL)向けに書かれたクエリを別のシステム(例:ClickHouse)向けの同等のクエリに適応させるという、実用上非常に重要な課題でありながら、まだ十分に研究されていません。既存のSQLベンチマークはSQL-to-SQL評価には適しておらず、(1) 限られたデータベースシステム(しばしばSQLiteのみ)に焦点を当てており、(2) 多くのシステム固有のSQL方言(例:カスタマイズされた関数、データ型、構文規則)を捉えることができません。そこで本論文では、実用的で現実的なクロスシステムSQL翻訳のベンチマークであるPARROTを紹介します。PARROTは、38のオープンソースベンチマークと実世界のビジネスサービスから収集した598の翻訳ペアで構成され、特にシステム固有のSQL理解を試すために準備されています(例:LLMの平均精度は38.53%未満)。また、28,003の翻訳を含むPARROT-Diverse(広範な構文テスト用)と5,306の代表的なサンプルを含むPARROT-Simple(集中ストレステスト用)など、複数のベンチマークバリアントを提供し、22のプロダクショングレードのデータベースシステムをカバーしています。今後の研究を促進するため、公開リーダーボードとソースコードを以下で公開しています:https://code4db.github.io/parrot-bench/。
人間のフィードバックは、大規模言語モデル(LLM)を人間の好みに合わせる上で重要な役割を果たします。しかし、そのようなフィードバックはしばしばノイズが多く一貫性に欠けるため、報酬モデルの品質を低下させ、アライメントを妨げる可能性があります。この問題を緩和するために、さまざまな自動データクリーニング手法が提案されていますが、それらの有効性と汎用性を体系的に評価する研究はまだ不足しています。このギャップを埋めるため、我々はLLMアライメントの文脈で13の選好データクリーニング手法を評価する初の包括的なベンチマークを導入します。PrefCleanBenchは、多様なデータセット、モデルアーキテクチャ、最適化アルゴリズムにわたるアライメント性能と汎用性の観点からクリーニング戦略を評価するための標準化されたプロトコルを提供します。異なる手法を統合し、厳密に比較することで、アライメントタスクにおけるデータクリーニングの成功を決定する主要な要因を明らかにします。このベンチマークは、データ品質の向上を通じてLLMアライメントを改善するための原則的で再現可能なアプローチの基盤を築き、責任あるAI開発におけるデータ前処理の重要な役割を浮き彫りにします。さらなる研究を促進するため、すべての手法のモジュール実装を公開します:https://github.com/deeplearning-wisc/PrefCleanBench。
長時間動画の理解は、最近の大規模ビデオ言語モデル(LVLM)にとって依然として課題となっています。これは、長期的な時間的理解と詳細な空間的知覚の間の矛盾によるものです。均一なフレームサンプリングメカニズムを持つLVLMは、等しいフレームサイズと固定サンプリングレートでフレームをサンプリングするため、時間的な手がかりか空間的な詳細のいずれかを犠牲にせざるを得ず、最適ではない解決策をもたらします。このジレンマを緩和するため、我々はLOVE-R1を提案します。このモデルは、動画クリップに適応的にズームインすることができます。まず、モデルには高密度にサンプリングされたが小さな解像度のフレームが提供されます。もし空間的な詳細が必要であれば、モデルはその推論に基づいて興味のあるクリップに大きなフレーム解像度でズームインし、重要な視覚情報が得られるまで続けます。このプロセス全体は、多段階の推論プロセスとして実装されています。推論能力を訓練するために、まず我々が収集した38kの高品質なCoTデータでモデルをファインチューニングし、分離された強化学習ファインチューニングで強化します。結果の報酬は細かいプロセス監視を提供できないため、多段階推論を複数の単一段階推論に分離し、内部のズームイン能力を明示的に最適化します。長時間動画理解ベンチマークでの実験では、スローファスト適応フレームサンプリングメカニズムを持つ我々のモデルが、サンプリング密度とフレーム解像度の間の優れたトレードオフを達成し、LOVE-R1はベースラインのQwen2.5-VLを4つの一般的な長時間動画理解ベンチマークで平均3.1%ポイント上回りました。
ウェブページからコードを生成するタスクでは、モデルがウェブページの視覚的表現を理解し、対応するコードを生成する必要があります。しかし、既存のベンチマークは主に静的なスクリーンショットからコードを生成するタスクに焦点を当てており、現実世界のウェブアプリケーションにおいて基本的な動的なインタラクションを見落としています。この制限に対処するため、本論文では、ビデオからインタラクティブなウェブページを再構築するための大規模視覚言語モデル(LVLM)の能力を評価する新しいベンチマークであるIWR-Benchを紹介します。IWR-Benchは、100の現実世界のウェブサイトから慎重に選ばれた113のタスクで構成され、1,001のアクションを含み、多様なインタラクションの複雑さ(例:ウェブゲーム)、視覚スタイル、ドメインを特徴としています。標準的なウェブ開発プラクティスに沿って、各タスクにはユーザーインタラクションのビデオだけでなく、クロールされたすべての静的アセット(例:画像、ビデオ)も含まれています。このベンチマークは、ビデオとアセットからインタラクションロジックを推論するための包括的なマルチモーダル推論と、このロジックを機能的なコードに変換するための高度なコード生成という2つの基本的な課題についてモデルを評価します。包括的なメトリックシステムを備えたエージェント・アズ・ア・ジャッジフレームワークは、生成されたウェブページの機能的正確性と視覚的忠実度を自動的に評価します。28のLVLMに対する広範な実験により、重要な課題が明らかになりました:最良のモデルでも全体スコアはわずか36.35%であり、機能的正確性(24.39% IFS)は視覚的忠実度(64.25% VFS)に大きく遅れをとっています。これらの結果は、現在のモデルが時間的ダイナミクスを推論し、イベント駆動型のロジックを合成する能力における重大な限界を強調し、IWR-Benchを視覚言語研究の挑戦的なフロンティアとして確立します。ベンチマークと評価コードは公開されます。コードはhttps://github.com/L-O-I/IWR-Benchで利用可能です。
我々はDafnyCOMPを紹介する。これは、Dafnyにおける合成的仕様生成に対する大規模言語モデル(LLM)の評価を目的としたベンチマークである。従来のベンチマークが単一関数タスクに焦点を当てていたのに対し、DafnyCOMPはデータ依存関係を持つ複数の相互作用する関数で構成されるプログラムを対象としており、コンポーネント間を跨ぐ推論を必要とする。このベンチマークは、自動合成された300の多関数プログラムから構成されている。我々はいくつかの最先端LLMファミリーを評価し、それらが単一関数の検証では良好な性能を示す一方で、合成的タスクでは性能が急激に低下することを明らかにした。分析の結果、クロスファンクショナルな推論における体系的な失敗が明らかになり、脆弱な仕様、実装と証明の間の不一致、不安定な推論などが含まれることが分かった。したがって、DafnyCOMPはLLMを用いた信頼性が高く検証可能で合成的なコード生成に向けた進歩を測定するための診断ツールを提供する。
検索拡張型の大規模言語モデル(LLM)は、複雑な推論タスクにおいて、多段階の検索が非効率的であることや推論能力が限られていることから、しばしば苦戦を強いられます。本研究では、AceSearcherを提案します。これは、単一のLLMを訓練し、複雑なクエリを分解する「分解者」と、検索された文脈を統合して回答を生成する「解決者」という2つの役割を交互に担わせる協調的セルフプレイフレームワークです。AceSearcherは、検索、推論、分解タスクの多様な混合データセットに対する教師ありファインチューニングと、最終的な回答精度を最適化する強化学習ファインチューニングを組み合わせることで、中間アノテーションの必要性を排除します。10のデータセットにわたる3つの推論集約型タスクでの広範な実験により、AceSearcherが最先端のベースラインを上回り、平均で7.6%の正確一致率向上を達成することが示されました。特に、ドキュメントレベルの財務推論タスクでは、AceSearcher-32BがDeepSeek-V3モデルの性能に匹敵し、そのパラメータ数の5%未満で同等の結果を達成しました。さらに、小規模なモデル(1.5Bおよび8B)においても、AceSearcherは既存の検索拡張型LLMをしばしば上回り、最大9倍のパラメータを持つモデルを凌駕するなど、複雑な推論タスクに取り組む際の卓越した効率性と有効性が明らかになりました。私たちのコードは、https://github.com/ritaranx/AceSearcher および https://huggingface.co/AceSearcher で公開される予定です。
マルチサブジェクト画像生成は、ユーザーが提供した複数のサブジェクトを単一の画像内に合成しつつ、サブジェクトの忠実性を保ち、プロンプトの一貫性を確保し、人間の美的嗜好に沿うことを目指すものです。しかし、既存の手法、特にIn-Context-Learningパラダイムに基づくものは、単純な再構成ベースの目的関数に依存しているため、サブジェクトの忠実性を損なう深刻な属性漏洩が発生し、また、微妙な人間の嗜好に沿うことができません。この問題を解決するため、我々はMultiCrafterを提案します。これは、高忠実性かつ嗜好に沿った生成を実現するフレームワークです。まず、属性漏洩の根本原因は、生成プロセス中に異なるサブジェクト間のアテンションが著しく絡み合うことにあることを発見しました。そこで、各サブジェクトのアテンション領域を明示的に分離するために、明示的な位置監督を導入し、属性漏洩を効果的に軽減します。さらに、モデルが多様なシナリオで異なるサブジェクトのアテンション領域を正確に計画できるように、Mixture-of-Experts(MoE)アーキテクチャを採用し、異なる専門家が異なるシナリオに集中できるようにモデルの能力を強化します。最後に、人間の嗜好にモデルを適合させるために、新しいオンライン強化学習フレームワークを設計しました。これには、マルチサブジェクトの忠実性を正確に評価するスコアリングメカニズムと、MoEアーキテクチャに特化したより安定したトレーニング戦略が含まれます。実験により、我々のフレームワークがサブジェクトの忠実性を大幅に向上させ、人間の嗜好により良く沿うことが検証されました。
ビジョン言語モデル(VLMs)は、テキストインタラクションを通じて様々な視覚タスクを柔軟に処理することができます。意味理解においては成功を収めているものの、GPT-5を含む最先端のVLMsでも、2D入力から3Dを理解する点では依然として苦戦しています。一方、専門家による純粋な視覚モデルは、3D理解の重要なタスクであるメトリック深度推定において、人間を超える精度を達成しています。しかし、これらのモデルはタスク固有のアーキテクチャと損失関数を必要とします。この違いから、我々は次の疑問を抱きました:VLMsはアーキテクチャや損失関数を変更せずに、専門家レベルの精度を達成できるのか?我々はピクセル単位のメトリック深度推定を代表的なタスクとして取り上げ、その答えが「イエス」であることを示します。驚くべきことに、包括的な分析により、スパースラベルを用いたテキストベースの教師ありファインチューニングだけで、VLMsが強力な3D理解を発揮することが明らかになりました。密な予測ヘッドや複雑な回帰/正則化損失は必要ありません。VLMsのボトルネックは実際にはピクセル参照とクロスデータセットのカメラ曖昧性にあり、これらを視覚的プロンプティングと固有条件付き拡張によって解決します。はるかに小さいモデルで、我々の手法DepthLMは、最先端のVLMsの精度を2倍以上上回り、VLMsが初めて純粋な視覚モデルと比較可能なレベルに達しました。興味深いことに、トレーニング中に明示的に強制しなくても、DepthLMでトレーニングされたVLMsは自然に過剰平滑化を回避し、境界領域での飛び点が純粋な視覚モデルよりもはるかに少なくなります。DepthLMのシンプルさにより、単一のVLMがメトリック深度を超えた様々な3Dタスクをカバーすることも可能になります。我々のコードとモデルは以下のリンクで公開されます。
大規模言語モデル(LLM)を人間の価値観や意図に整合させるためには、選好最適化が重要である。このプロセスにおける大きな課題は、事前に収集されたオフラインの選好データと進化するモデルポリシーとの間の分布ミスマッチである。既存の手法では、静的なヒューリスティックや分離されたオンラインサンプリング戦略を用いてこのギャップを縮めようとするが、モデルの動的な学習状態に適応できないことが多い。このギャップを埋めるために、我々はMeta-Weighted Adaptive Preference Optimization(MetaAPO)という新しいフレームワークを提案する。MetaAPOは、データ生成とモデル学習を動的に結合し、軽量なメタ学習器を「整合ギャップ推定器」として使用して、オンポリシーサンプリングの潜在的な利点をオフラインデータと関連付けて評価する。これにより、ターゲットを絞ったオンライン生成を導き、最適化目標にサンプルごとのメタ重みを割り当てることで、オンラインとオフラインデータの品質と分布を動的にバランスさせる。AlpacaEval 2、Arena-Hard、MT-Benchでの実験により、MetaAPOが様々な設定において既存の選好最適化手法を一貫して上回り、オンラインアノテーションコストを42%削減できることが示された。
本論文では、大規模言語モデル(LLM)における数学的推論の動的診断ツールであるMathBodeを提案する。MathBodeは、一発の精度ではなく、各パラメトリック問題をシステムとして扱う:単一のパラメータを正弦波的に駆動し、モデル出力と厳密解の第一高調波応答をフィッティングする。これにより、解釈可能な周波数分解メトリクス――ゲイン(振幅追跡)と位相(遅れ)――が得られ、ボード線図スタイルのフィンガープリントを形成する。5つの閉形式ファミリー(線形解法、比率/飽和、複利計算、2x2線形システム、相似三角形)にわたって、この診断は系統的なローパス動作と増大する位相遅れを浮き彫りにし、精度だけでは見えにくい特性を明らかにする。我々は、いくつかのモデルを、計器を較正するシンボリックベースライン(G≈1、φ≈0)と比較する。結果は、フロンティアモデルとミッドティアモデルを動的特性に基づいて分離し、推論の忠実度と一貫性を測定可能なアクショナブルなメトリクスを標準ベンチマークに補完する、コンパクトで再現可能なプロトコルを提供する。さらなる研究と採用を可能にするため、データセットとコードをオープンソースとして公開する。
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(Large Language Models, LLMs)の進歩を促進する中心的なパラダイムとして登場しており、事前学習とRLによる事後学習は同じ対数尤度の定式化を共有している。一方、拡散モデルに対する最近のRLアプローチ、特にDenoising Diffusion Policy Optimization(DDPO)は、事前学習の目的関数とは異なる目的関数、すなわちスコア/フローマッチング損失を最適化する。本研究では、DDPOがノイズを含むターゲットに対するスコア/フローマッチングの暗黙的な形式であり、これが分散を増大させ収束を遅らせるという新たな理論的解析を確立する。この解析に基づき、拡散モデルに対するポリシー勾配法であるAdvantage Weighted Matching(AWM)を提案する。AWMは、事前学習と同じスコア/フローマッチング損失を使用して分散の少ない目的関数を取得し、各サンプルをそのアドバンテージで重み付けする。これにより、AWMは高報酬サンプルの影響を高め、低報酬サンプルを抑制しながら、モデリングの目的を事前学習と同一に保つ。これにより、事前学習とRLが概念的にも実践的に統一され、ポリシー勾配理論と整合し、分散を低減し、より速い収束をもたらす。このシンプルでありながら効果的な設計は、GenEval、OCR、PickScoreベンチマークにおいて、Stable Diffusion 3.5 MediumおよびFLUXに適用した場合、Flow-GRPO(DDPOに基づく)に対して最大24倍の高速化を実現し、生成品質を損なうことなく大きな利点をもたらす。コードはhttps://github.com/scxue/advantage_weighted_mappingで公開されている。
構造化された画像(例えば、チャートや幾何学的図形)は、マルチモーダル大規模言語モデル(MLLM)にとって依然として課題であり、知覚的な誤りが誤った結論につながる可能性があります。中間的な視覚的キューは推論を導くことができますが、既存のキューに基づく手法は、低解像度の画像処理と線形的で硬直した推論パターンに制約されており、複雑な構造化画像タスクでの効果が限られています。本論文では、構造化画像に対する高解像度の画像処理と柔軟な視覚推論を実現する新しいマルチエージェントシステムであるPixelCraftを提案します。このシステムは、ディスパッチャー、プランナー、推論エージェント、批評者、および一連の視覚ツールエージェントで構成されています。高解像度の処理を実現するために、高品質のコーパスを構築し、MLLMをグラウンディングモデルにファインチューニングし、そのピクセルレベルの位置情報をツールエージェント内の従来のコンピュータビジョン(CV)アルゴリズムと統合します。この基盤を基に、PixelCraftは、ツール選択、エージェント間の議論、自己批評という動的な3段階のワークフローを通じて柔軟な視覚推論を促進します。さらに、単に過去の画像を追加する従来の線形推論パターンとは異なり、PixelCraftは画像メモリを維持し、プランナーが以前の視覚的ステップを適応的に再訪し、代替の推論ブランチを探索し、議論中に推論軌道を動的に調整できるようにします。チャートや幾何学のベンチマークでの広範な実験により、PixelCraftが先進的なMLLMの視覚推論性能を大幅に向上させ、構造化画像推論の新たな標準を確立することが示されました。私たちのコードはhttps://github.com/microsoft/PixelCraftで公開されます。
生成と理解の能力を統合したビデオモデリングはますます重要になっていますが、2つの主要な課題に直面しています。1つは、テキストとビジュアルトークンの不均衡によるフローベース生成中の意味的忠実性の維持と、フロートラジェクトリー全体での均一なクロスモーダルアテンションの制限です。もう1つは、コストのかかる再学習なしで、画像中心のMLLMを効率的にビデオに拡張することです。本論文では、UniVidを提案します。これは、軽量なアダプターを介してMLLMとディフュージョンデコーダを結合し、ビデオ理解と生成の両方を可能にする統合アーキテクチャです。プロンプトの遵守を改善するためのTemperature Modality Alignmentと、動的なキーフレーム選択による効率的な時間的推論を実現するPyramid Reflectionを導入します。標準ベンチマークでの広範な実験により、EasyAnimateV5.1と比較してVBench-Longの総合スコアで2.2%の向上、およびMSVD-QAとActivityNet-QAでそれぞれ1.0%と3.3%の精度向上を達成し、最先端の性能を示しました。
スケーラビリティは近年の生成モデルの進歩を牽引してきたが、敵対的学習におけるその原理はまだ十分に探究されていない。本論文では、生成モデルの他のタイプで有効性が証明された2つの設計選択、すなわちコンパクトな変分オートエンコーダ(VAE)の潜在空間での学習と、純粋なトランスフォーマーベースの生成器および識別器の採用を通じて、Generative Adversarial Networks(GANs)のスケーラビリティを調査する。潜在空間での学習は、知覚的な忠実度を保ちつつ効率的な計算を可能にし、この効率性は計算予算に応じて性能がスケールするプレーンなトランスフォーマーと自然に組み合わさる。これらの選択を基盤として、GANsを単純にスケールさせた際に生じる失敗モードを分析する。具体的には、生成器の初期層の活用不足や、ネットワークがスケールする際の最適化の不安定性といった問題を明らかにする。それに応じて、軽量な中間監視や幅を考慮した学習率調整といった、シンプルでスケールフレンドリーな解決策を提供する。我々の実験では、純粋なトランスフォーマーベースかつ潜在空間でのGANsであるGATが、広範な容量(SからXLまで)にわたって容易かつ確実に学習できることを示す。さらに、GAT-XL/2は、ImageNet-256において、わずか40エポックでクラス条件付き生成の単一ステップ性能(FID 2.96)で最先端を達成し、強力なベースラインと比べて6倍少ないエポック数でこれを実現した。
複雑な環境を習得する人工エージェントの追求は、目覚ましい成功をもたらしてきたが、現在の深層強化学習手法はしばしば膨大な経験に依存し、その知識をニューラルネットワークの重みに不透明に符号化している。我々は、エージェントが推論と計画を通じて学習するという異なるパラダイムを提案する。我々は、Cogito, ergo ludo(CEL)という新しいエージェントアーキテクチャを紹介する。CELは、大規模言語モデル(LLM)を活用して、環境のメカニズムと自身の戦略を明示的かつ言語ベースで理解する。事前知識なし(アクションセットを除く)のタブラ・ラサ状態から始まり、CELは相互作用と内省のサイクルで動作する。各エピソード後、エージェントは完全な軌跡を分析し、二つの並行した学習プロセスを実行する:ルール誘導(環境のダイナミクスの明示的モデルを洗練する)と戦略およびプレイブック要約(経験を実行可能な戦略プレイブックに凝縮する)。我々はCELを多様なグリッドワールドタスク(マインスイーパー、フローズンレイク、ソコバン)で評価し、CELエージェントがこれらのゲームを習得し、スパースな報酬からルールを自律的に発見し、効果的なポリシーを開発することを示す。アブレーション研究は、反復プロセスが持続的な学習に不可欠であることを確認する。我々の研究は、効果的に行動するだけでなく、生の経験に対する明示的な推論を通じて世界の透明で改善されるモデルを構築する、より一般的で解釈可能なエージェントへの道を示す。
外部環境と相互作用する大規模言語モデル(LLM)ベースのエージェントの普及が進むにつれ、敵対的な操作に対する新たな攻撃面が生じている。その主要な脅威の一つが、間接的なプロンプトインジェクションである。これは、攻撃者が外部環境の出力に悪意のある指示を埋め込み、エージェントがそれを正当なプロンプトとして解釈し実行してしまうというものである。従来の研究は主に平文のインジェクション攻撃に焦点を当ててきたが、我々はLLMが構造化されたチャットテンプレートに依存し、説得力のある多段階対話を通じた文脈操作に対して脆弱であるという重要な未開拓の脆弱性を発見した。これに基づき、我々はChatInjectを提案する。これは、悪意のあるペイロードをネイティブのチャットテンプレートに模倣させることで、モデルの内在的な指示追従傾向を悪用する攻撃手法である。さらに、この基盤を発展させ、会話のターンにわたってエージェントを準備し、本来は疑わしい行動を受け入れ実行させる説得駆動型の多段階バリアントを開発した。最先端のLLMを対象とした包括的な実験を通じて、以下の3つの重要な知見を明らかにした:(1) ChatInjectは、従来のプロンプトインジェクション手法と比べて平均攻撃成功率が大幅に向上し、AgentDojoでは5.18%から32.05%、InjecAgentでは15.13%から45.90%に向上し、多段階対話では特に強力な性能を示し、InjecAgentで平均52.33%の成功率を達成した、(2) チャットテンプレートベースのペイロードはモデル間での高い転移性を示し、未知のテンプレート構造を持つクローズドソースのLLMに対しても有効であり、(3) 既存のプロンプトベースの防御手法は、特に多段階バリアントに対して、この攻撃手法に対してほとんど効果がない。これらの知見は、現在のエージェントシステムにおける脆弱性を浮き彫りにしている。
Wikipediaは世界最大のオープン知識コーパスであり、大規模言語モデル(LLM)や検索拡張生成(RAG)システムのトレーニングに広く利用される重要なリソースです。その正確性を確保することは極めて重要です。しかし、Wikipediaはどれほど正確であり、どのように改善できるのでしょうか? 本稿では、事実誤りの特定のタイプである不整合に焦点を当て、コーパスレベルの不整合検出タスクを導入します。私たちは、LLMの推論と検索を組み合わせて、人間によるレビューのための文脈的証拠とともに潜在的な不整合な主張を浮かび上がらせるエージェントシステム「CLAIRE」を提案します。経験豊富なWikipedia編集者を対象としたユーザー調査では、87.5%がCLAIREを使用することでより高い自信を報告し、参加者は同じ時間内に64.7%多くの不整合を特定しました。 CLAIREと人間のアノテーションを組み合わせることで、実際のWikipediaの不整合を対象とした初のベンチマーク「WIKICOLLIDE」を提供します。CLAIRE支援分析を用いたランダムサンプリングにより、英語版Wikipediaの事実の少なくとも3.3%が他の事実と矛盾しており、その不整合がFEVEROUSの7.3%、AmbigQAの4.0%の例に波及していることがわかりました。このデータセットで強力なベースラインをベンチマークした結果、大きな改善余地が示されました:最も優れた完全自動化システムのAUROCはわずか75.1%でした。 私たちの結果は、矛盾がWikipediaの測定可能な構成要素であり、CLAIREのようなLLMベースのシステムが、編集者が大規模に知識の一貫性を改善するための実用的なツールを提供できることを示しています。
目標指向型言語誘導ナビゲーションでは、エージェントが未知の環境においてステップバイステップの指示なしに指定された目標に到達するための堅牢な探索能力が求められる。既存の手法は最短経路軌道に偏りがちで、ナビゲーションエージェントの訓練に有効な探索の事前知識を欠いている。これらの課題に対処するため、我々は自己改善デモンストレーションを備えた目標指向型言語誘導ナビゲーション学習手法「SID」を提案する。具体的には、SIDは環境からサンプリングされた最短経路データを用いて初期エージェントを学習し、その後、このエージェントを活用して新たな探索軌道を生成する。これらの新たな軌道は、より強力な探索戦略を備えたデモンストレーションを提供し、より優れたエージェントを訓練する。このエージェントは次なる訓練ラウンドに向けて、さらに高品質なデモンストレーションを生成する。我々は、この反復的な自己改善パイプラインが新たな環境に容易にスケールし、生成されたデモンストレーションが様々な言語誘導ナビゲーションタスク間で転移可能であることを示す。これにより、多様な目標指向型ナビゲーションタスクにおける性能の上限が引き上げられる。大規模な実験により、SIDがナビゲーションエージェントの探索能力と汎化性能を大幅に向上させることが実証された。結果として得られたエージェントは、REVERIEやSOONなどの目標指向型言語誘導ナビゲーションタスクにおいて新たな最先端の性能を達成し、特にSOONの未見の検証データセットにおいて50.9%の成功率を記録し、従来の主要な手法を13.9%の差で上回った。
大規模マルチモーダルモデル(LMMs)とクラウドベースのAIエージェントの急速な進展により、人間とAIの協働は双方向かつマルチモーダルな相互作用へと変貌を遂げつつある。しかし、既存のコーデックは依然として単一モーダルで一方向の通信に最適化されており、従来の圧縮-伝送-再構築パイプラインにおいて繰り返し品質劣化が生じている。この課題を解決するため、我々はUniMIC(Unified token-based Multimodal Interactive Coding framework)を提案する。UniMICは、エッジデバイスとクラウドAIエージェントを橋渡しする統一されたトークンベースのマルチモーダル対話型符号化フレームワークである。生のピクセルデータや平文テキストを伝送する代わりに、UniMICはコンパクトなトークン化表現を通信媒体として採用し、LMMsとの互換性を維持しながら効率的な低ビットレート伝送を実現する。さらに圧縮効率を向上させるため、軽量なTransformerベースのエントロピーモデルをシナリオ特化型(汎用、マスク、テキスト条件付き)に設計し、トークン間の冗長性を効果的に最小化する。テキストから画像生成、テキストガイドによるインペインティング、アウトペインティング、視覚的質問応答などの広範な実験を通じて、UniMICが大幅なビットレート削減を達成し、超低ビットレート(<0.05bpp)においても下流タスクの性能を損なうことなく堅牢性を維持することを示す。これらの結果は、UniMICが次世代マルチモーダル対話型通信の実用的かつ先見的なパラダイムであることを確立する。
写真家たちは、現実を直接編集する際に、青と空を同時に見ることが非常に難しいと感じてきました。写真家兼キュレーターであるスザコウスキは、一般的な視覚理解と美的視覚理解の間にある顕著なギャップの一つを鋭く指摘しました。前者は画像内の事実的要素(空)を識別することに焦点を当てるのに対し、後者はそのような対象の識別を超え、それを美的要素——純粋な色のブロック(青)——として見るのです。このような一般的(検出、位置特定など)と美的(色、照明、構図など)な視覚理解の根本的な違いは、マルチモーダル大規模言語モデル(MLLMs)にとって大きな課題となっています。最近のいくつかの研究では初期の探求が行われていますが、それらはしばしば一般的で基本的な美的常識に限定されています。その結果、現実世界のシナリオ(図1)では、詳細な分析と説明を提供するために必要な広範な専門知識——写真技術、写真の前処理/後処理の知識など——を十分に満たすことができません。MLLMsの美的理解を根本的に向上させるために、私たちはまず、プロの写真家や愛好家の間での広範な議論から得られた新しいデータセット、PhotoCritiqueを紹介します。このデータセットは、大規模性、専門性、多様性を特徴としています。次に、PhotoCritiqueから視覚美学をより良く学ぶために、複数の視点から画像美学を理解するための言語誘導型マルチビュービジョンフュージョンメカニズムを備えた新しいモデル、PhotoEyeを提案します。最後に、美的視覚理解のための包括的で専門的なベンチマーク、PhotoBenchを提示します。既存のベンチマークとPhotoBenchにおいて、私たちのモデルは既存のモデルに対して明確な優位性を示しています。
テスト駆動開発(TDD)は、開発者がコード実装と並行してテストを作成・実行し、ソフトウェアの動作を継続的に検証・改善することを求める、広く採用されているソフトウェア工学のプラクティスです。開発者が高レベルの意図を指定することでコード作成を大規模言語モデル(LLM)に委ねる「バイブコーディング」の時代において、TDDはさらに重要性を増しています。なぜなら、テストケースは実行可能な仕様として機能し、自然言語の記述やコードの文脈だけでは伝えきれない意図された機能を明示的に定義・検証するからです。TDD下でのバイブコーディングは有望ですが、主に3つの課題があります:(1) 生成精度を向上させ、実行負荷を制御するために、小さくても効果的なテストスイートを選択すること、(2) 関連するコードなどのコンテキストを効率的に取得すること、(3) テストのフィードバックを体系的に活用して効果的なコード改善を行うことです。これらの課題に対処するため、TDD設定下で複雑な実世界のリポジトリにおける関数生成を行うLLMエージェント「TENET」を提案します。TENETは3つのコンポーネントを特徴とします:(1) ターゲット使用シナリオの多様性を最大化するために簡潔なテストスイートを選択する新しいテストハーネスメカニズム、(2) インタラクティブなデバッグを伴う関連コードの効率的な取得を行う特化したエージェントツールセット、(3) 失敗を反復的に分析し、コンテキストを補充し、コード改善を適用するリフレクションベースの改善ワークフローです。TENETは、RepoCodとRepoEvalベンチマークでそれぞれ69.08%と81.77%のPass@1を達成し、最良のエージェントベースラインを9.49ポイントと2.17ポイント上回りました。さらに、リポジトリレベルのコンテキストを用いたテスト駆動コード生成の初めての研究であり、TDD設定下でのLLMエージェントの性能にテストスイートの異なる側面がどのように影響するかを検証しています。
本論文では、大規模言語モデル(LLM)を活用してBPMNダイアグラムの自然言語ベースの作成と編集を可能にするツール「BPMN Assistant」を紹介する。プロセス修正の精度を向上させるため、XMLの直接的な扱いに代わる構造化された代替手段として、専門的なJSONベースの表現を導入する。プロセス生成の品質はグラフ編集距離(GED)と相対グラフ編集距離(RGED)を用いて評価し、編集性能は二値の成功指標で評価する。結果として、生成においてJSONとXMLは類似のスコアを達成するが、JSONはより高い信頼性、高速な処理、そして大幅に高い編集成功率を提供することが示された。主要なトレードオフ、制限、および将来の改善点について議論する。実装はhttps://github.com/jtlicardo/bpmn-assistantで公開されている。
ペアリングされたRGB-サーモデータは、視覚-サーモセンサー融合およびクロスモダリティタスクにおいて極めて重要であり、マルチモーダル画像アライメントや検索などの重要な応用に不可欠である。しかし、同期および校正されたRGB-サーモ画像ペアの不足は、これらの分野の進展における主要な障害となっている。この課題を克服するため、RGBからサーモ(RGB-T)画像変換が有望な解決策として登場し、豊富なRGBデータセットからサーモ画像を合成してトレーニングに利用することが可能となった。本研究では、RGB-T画像変換のための適応型フローベース生成モデルであるThermalGenを提案し、RGB画像条件付けアーキテクチャとスタイル分離メカニズムを組み込んでいる。大規模トレーニングを支援するため、8つの公開された衛星-航空、航空、地上RGB-Tペアデータセットをキュレーションし、多様な時間、センサータイプ、地理的領域にわたってキャプチャされた3つの新しい大規模衛星-航空RGB-Tデータセット(DJI-day、Bosonplus-day、Bosonplus-night)を導入した。複数のRGB-Tベンチマークにわたる広範な評価により、ThermalGenは既存のGANベースおよび拡散ベースの手法と比較して同等または優れた変換性能を達成することが示された。我々の知る限り、ThermalGenは、視点、センサー特性、環境条件の大幅な変動を反映したサーモ画像を合成可能な初めてのRGB-T画像変換モデルである。プロジェクトページ: http://xjh19971.github.io/ThermalGen
人工知能(AI)システム、特に大規模言語モデル(LLM)は、科学的アイデア生成などの創造的タスクにますます活用されており、これは既存の概念的フレームワークでは扱われていない訓練データからの一般化の一形態を構成しています。組み合わせ的汎化(CG)との類似性にもかかわらず、組み合わせ的創造性(CC)は開放的な能力です。CCの開放的な性質に反する固定された目標に対する正確さや正しさを評価する代わりに、我々は出力の新規性と有用性の度合いを評価するための理論的フレームワークとアルゴリズム的タスクを提案します。ここから、いくつかの重要な実証的貢献を行います:(1)LLMの創造性のスケーリング挙動に関する最初の知見を得ます。(2)固定された計算予算において、創造的能力に最適なモデルの深さと幅が存在することを発見します。(3)LLMが新規な科学的アイデアを生成するのは得意であるが、その実現可能性を確保するのに苦労するというアイデア生成と実行のギャップは、一般的な創造性アルゴリズムに特徴的な新規性と有用性のトレードオフによって説明できる可能性があります。重要なことに、このトレードオフはスケールが大きくなっても持続し、現在の形式でのLLMの長期的な創造的潜在能力に疑問を投げかけます。我々の概念的フレームワークと実証的発見は、現代のAIモデルにおける創造性を理解し改善するための基盤を提供し、人間と機械の知能の間のギャップを埋めるものです。
人間の移動予測は、複雑な長距離依存性と多スケールの周期的行動のため、本質的に困難な課題です。この問題に対処するため、我々はRHYTHM(Reasoning with Hierarchical Temporal Tokenization for Human Mobility)を提案します。これは、大規模言語モデル(LLMs)を汎用的な時空間予測器および軌跡推論器として活用する統一フレームワークです。方法論的には、RHYTHMは時間的トークン化を用いて各軌跡を日単位のセグメントに分割し、日次および週次の依存関係を捉える階層的注意機構を持つ離散トークンとしてエンコードします。これにより、周期的情報を保持しながらシーケンス長を大幅に削減します。さらに、事前計算されたプロンプト埋め込みを軌跡セグメントと予測ターゲットに追加し、これらの結合された埋め込みをLLMのバックボーンにフィードバックすることで、複雑な相互依存関係を捉えます。計算的には、RHYTHMは事前学習済みLLMのバックボーンを凍結し、注意複雑性とメモリコストを削減します。我々は、3つの実世界データセットを用いて、最先端の手法に対するモデルの評価を行いました。特に、RHYTHMは全体精度で2.4%の向上、週末では5.0%の増加、そして訓練時間で24.6%の削減を達成しました。コードはhttps://github.com/he-h/rhythmで公開されています。
長文書を簡潔に要約する能力は、情報過多の現代社会においてますます重要になっています。しかし、特に法律分野において、スペイン語文書の要約は著しく不足しています。本研究では、スペインの「Boletín Oficial del Estado」(BOE、国家官報)から収集した文書を基に、3,648件の簡潔で平易な要約を含むBOE-XSUMデータセットを構築しました。データセットの各エントリには、短い要約、原文、および文書タイプのラベルが含まれています。BOE-XSUMでファインチューニングした中規模の大規模言語モデル(LLM)の性能を評価し、ゼロショット設定での汎用生成モデルと比較しました。その結果、ファインチューニングされたモデルは、非専門モデルを大幅に上回る性能を示しました。特に、最高性能を発揮したモデルであるBERTIN GPT-J 6B(32ビット精度)は、トップのゼロショットモデルであるDeepSeek-R1に対して24%の性能向上を達成しました(精度41.6%対33.5%)。
大規模言語モデル(LLMs)が複雑な推論をどのように実行し、その失敗メカニズムがどのように発生するかを理解することは、解釈可能性研究における重要な課題です。本論文では、測定可能な幾何学的分析の視点を提供するために、「推論多様体(Reasoning Manifold)」という概念を定義します。これは、すべての正しい推論に対応する内部表現によって形成される潜在的な低次元幾何構造であり、モデルが特定のタスクを成功裏に解決するために学習した有効な思考経路の具現化と概念化できます。この概念に基づいて、誤った推論と正しい推論のサンプルに対応する内部表現の空間的関係を定量的に比較することで、失敗の起源を説明するフレームワーク「REMA」を構築します。具体的には、REMAはまず、正しい表現によって形成される近似多様体に対する各誤った表現のk近傍距離を計算することで、その幾何学的偏差を定量化し、統一された失敗信号を提供します。次に、モデルの層全体でこの偏差メトリックを追跡し、正しい表現からの内部変動のベースラインと比較することで、これらの偏差が最初に顕著になる分岐点を特定し、推論チェーンが軌道から外れ始める場所を明らかにします。多様な言語モデルおよびマルチモーダルモデルとタスクに対する広範な実験を通じて、推論多様体の低次元性と、誤った推論表現と正しい推論表現の高い分離性が実証されました。また、REMAフレームワークが推論失敗の起源を分析する上で有効であることも検証されました。本研究は、抽象的な推論失敗を表現における測定可能な幾何学的偏差に結びつけ、ブラックボックスモデルの内部計算プロセスを深く理解し診断するための新たな道筋を提供します。
大規模推論モデル(LRMs)は、Chain-of-Thought(CoT)推論を通じて複雑な問題解決において顕著な能力を発揮することが示されている。しかし、CoTの多段階的な性質は、従来の言語モデルのアラインメントを超えた新たな安全性の課題を引き起こす。我々は、現在の安全性CoTチューニング手法における失敗モード、すなわち「雪だるま効果」を特定した。これは、わずかな推論の逸脱が思考プロセス全体で徐々に増幅され、有害な従順や過剰な拒否を引き起こす現象である。この効果は、モデルが完璧な推論スクリプトを模倣するように訓練されながら、自己修正を学ばないことに起因する。この制限を克服するため、我々はAdvChainを提案する。これは、敵対的CoTチューニングを通じてモデルに動的な自己修正を教えるアラインメントパラダイムである。我々の手法は、誘惑-修正および躊躇-修正のサンプルを含むデータセットを構築し、モデルが有害な推論の逸脱や不必要な警戒から回復することを学ぶことを含む。大規模な実験により、AdvChainがジェイルブレイク攻撃やCoTハイジャックに対する堅牢性を大幅に向上させ、良性のプロンプトに対する過剰な拒否を大幅に減少させ、推論能力を損なうことなく優れた安全性と有用性のバランスを達成することが示された。本研究は、より堅牢で信頼性の高い推論モデルを構築するための新たな方向性を確立するものである。
過去10年間において、計算言語学(CL)と自然言語処理(NLP)は急速に進化し、特にTransformerベースの大規模言語モデル(LLM)の登場によって大きな変革を遂げてきました。この変化は、研究の目標と優先事項を、語彙的・意味的リソースから言語モデリングやマルチモーダリティへと転換させました。本研究では、イタリアのCLおよびNLPコミュニティの研究トレンドを、同分野における主要な会議であるCLiC-itへの投稿分析を通じて追跡します。CLiC-it会議の最初の10回分(2014年から2024年まで)の議事録をCLiC-itコーパスとしてまとめ、著者の出身地、性別、所属機関などのメタデータと、多様なトピックを扱った論文の内容の両方について包括的な分析を提供します。私たちの目的は、イタリアおよび国際的な研究コミュニティに対して、時系列で見た新興トレンドと主要な進展に関する貴重な洞察を提供し、この分野における情報に基づいた意思決定と将来の方向性を支援することです。
我々は、多様な人類のアーカイブ(ADAM: A Diverse Archive of Mankind)を紹介する。これは、伝記的推論におけるマルチモーダル大規模言語モデル(MLLMs)の評価と改善のためのフレームワークである。我々の知る限り、これは事実知識の重要な側面でありながら未開拓であった伝記分野におけるLLMの能力を体系的に検証する初めての研究である。その中核となるAdamDBは、地理、時代、職業を横断する400万人以上の個人をカバーする多言語・マルチモーダルデータセットであり、AdamBenchはブルームのタキソノミーに基づいた認知的に構造化された評価を提供し、英語と母国語の両方で6つの推論レベルを網羅している。特に知名度の低い個人に対する幻覚(hallucination)問題に対処するため、我々は伝記的文脈に特化した検索拡張生成システム(AdamRAG)を提案する。実験結果は、AdamRAGがオープンソースモデルを大幅に改善し、クローズドソースモデルにもある程度の利益をもたらすことを示しており、特に低次元の推論において最大の効果が見られた。知名度は精度に強く影響し、顔画像によるマルチモーダル入力は検索よりも小さく、一貫性の低い改善しかもたらさなかった。ADAMは、認知的、文化的、マルチモーダルに基づいた伝記的評価の最初のベンチマークとフレームワークを確立し、多言語で正確かつ幻覚に強いMLLMsの開発を推進するものである。
正確で較正された信頼度推定を生成することは、LLM(大規模言語モデル)を高リスクまたはユーザー向けアプリケーションに展開する上で極めて重要であり、依然として未解決の課題である。従来の研究では、信頼度をモデルの「自己認識」、すなわちLLMが自身の回答が正しいかどうかを判断する能力として捉えることが多かった。このアプローチは、モデル自体が回答の正しさに関する何らかの特権的な情報にアクセスできるという暗黙の前提に基づいている。しかし、我々の実験では、自身の出力の正しさを予測しようとするLLMは、無関係なLLMと比べて一般的に優れた性能を示さないことが明らかになった。さらに、我々は「正しさモデル」(Correctness Model, CM)を構築する上で重要な要因は、対象モデルの過去の予測に触れることであると仮説を立てた。我々は、この過去の正しさ情報を注入するための複数の方法を提案し、汎用正しさモデル(Generalized Correctness Model, GCM)を構築した。まず、GCMは多くのLLMからの正しさデータに基づいて訓練され、データセットやモデルを超えて適用可能な正しさ予測のパターンを学習できることを示した。次に、CMを正しさ予測能力の源とその一般化を研究するためのレンズとして使用し、訓練データを体系的に制御することで、回答の表現が正しさの強力な予測因子であることを見出した。さらに、LLMを訓練せずに過去の情報を注入する代替方法を探り、過去の情報を文脈内の例として含めることが正しさ予測の改善に役立つこと、および事後較正が較正誤差を補完的に低減できることを発見した。我々は、Qwen3-8Bに基づくGCMを5つのモデルファミリーおよびMMLUとTriviaQAデータセット、および下流の選択的予測タスクで評価し、信頼できるLLMの信頼度推定は、自己内省に依存するモデル固有のスキルではなく、正しさの履歴を体系的にエンコードすることで学習される一般化可能でモデルに依存しないスキルであることを見出した。
ビデオキャプションは、ビデオ内のアクター、オブジェクト、およびアクションを簡潔に捉えたものであり、質問応答やイベントのローカライゼーションなどのアプリケーションにおいて貴重な資産となります。しかし、ビデオキャプションのための人間によるアノテーションを取得することはコストがかかるか、特に多様なビデオドメインを扱う場合には非現実的です。既存のモデルは、教師ありデータセットで訓練されていますが、参照ベースの評価プロトコルに依存しているため、異なるドメイン間でのパフォーマンス評価に課題を抱えています。このプロトコルでは、真のキャプションが必要とされますが、これは実際のビデオを評価する際には非現実的な仮定です。これらの制限に対処するため、我々は真のキャプションを必要としない参照フリーの評価フレームワークを提案し、キャプションの品質を正確に評価するために事実に基づいた評価に焦点を当てます。我々は、参照フリーかつ事実に基づいた新しいキャプション品質評価ツールであるVC-Inspectorを紹介します。大規模言語モデルを利用して、教師ありデータに基づいて品質が異なる疑似キャプションを生成し、その後、マルチモーダルモデル(すなわちQwen2.5-VL)を評価ツールとして訓練します。我々のアプローチは、VATEX-Evalデータセットにおいて人間の判断と優れた一致を示し、既存の方法を上回ります。また、画像を1フレームのビデオとして見た場合、Flickr8K-ExpertおよびFlickr8K-CFの画像キャプションデータセットにも一般化されます。全体として、VC-Inspectorは、ビデオキャプションの事実の正確性を評価するためのスケーラブルで汎用的なソリューションを提供し、多様なビデオドメインにおけるより効果的で客観的な評価方法の道を開きます。
確率的最適制御を用いた強化学習は、拡散モデルのファインチューニングにおいて有望なフレームワークを提供します。ここでは、事前学習済みの拡散モデルを最適化し、報酬に傾いた分布へと導く経路を生成します。これらのアプローチは、最適分布からの明示的なサンプルにアクセスすることなく最適化を可能にしますが、現在のファインチューニングされたモデル下でのロールアウトに基づいて訓練を行うため、報酬が低い非最適な軌道を強化してしまう可能性があります。この課題を克服するため、我々はTRee Search Guided TRajectory-Aware Fine-Tuning for Discrete Diffusion (TR2-D2)を提案します。これは、報酬に基づく離散拡散軌道を最適化し、軌道を意識したファインチューニングのためのリプレイバッファを構築する新しいフレームワークです。これらのバッファはモンテカルロ木探索(MCTS)を用いて生成され、その後、確率的最適制御の目的関数の下で事前学習済みの離散拡散モデルをファインチューニングするために使用されます。我々は、生物学的配列拡散モデルの単一および多目的ファインチューニングにおいてこのフレームワークを検証し、離散配列生成における信頼性の高い報酬に基づくファインチューニングのためのTR2-D2の全体的な有効性を強調します。