翻訳付きの日次キュレーションされたAI研究論文
現代の画像生成においては、テキストから画像への生成(T2I)、局所編集、全体編集といった多様な機能を統合する単一モデルが求められる。しかし、これらの機能は本来、自然に整合することは稀であり、しばしば競合する。例えば、編集はT2I性能を低下させる傾向があり、全体編集と局所編集は互いに干渉する。その結果、これらの機能を効果的に組み合わせることが、画像生成モデルの学習における中心的な課題となっている。この課題に取り組むため、我々はDanceOPDを提案する。これはフローマッチングモデルのためのオン・ポリシー生成場蒸留フレームワークであり、各サンプルを一つの機能場にルーティングし、低ノイズの学生誘導状態を一つ問い合わせ、シンプルな速度MSE目的で学習を行う。各機能源を共有フロー状態空間上の速度場として定義することで、学生は自身のロールアウト状態において問い合わせられた場から、専門家の機能を合成することを学ぶ。この定式化は、分類器不要ガイダンスのような演算子定義場も吸収する。T2I、編集、リアリズム場吸収、CFG吸収に関する包括的な実験により、本手法が多機能合成を改善し、アンカー生成品質を維持しつつターゲット機能を強化することを示す。我々は、この研究がフローマッチングモデルにおける生成場蒸留の実用的な道筋を確立すると考える。
現代のVision-Language-Action (VLA)モデルは、カメラ視点の変更やロボットの形態変更といった新しい設定への一般化にしばしば失敗する。これは、通常、現在の観測と言語指示のみに条件付けられているためである。基礎となるシステム構成を変数として無視することで、これらのモデルは訓練中に遭遇した固定された実行コンテキストを暗黙的に仮定しており、新しい環境ごとにデータ集約的なファインチューニングを必要とする。本研究では、システム同定をインコンテキスト適応問題として扱うフレームワーク、In-Context World Modeling (ICWM)を紹介する。ICWMは、ロボットポリシーが、自己生成されたタスク非依存の相互作用の短い履歴から、自律的にシステムの重要な変数を推論することを可能にする。どのタスクを実行するかを指定するためにデモンストレーションを使用する従来のインコンテキスト学習とは異なり、ICWMはコンテキストウィンドウを活用してシステムがどのように動作するかを理解する。タスク実行前にこれらの相互作用を処理することで、モデルは現在のシステムの世界ダイナミクスを暗黙的に捕捉し、パラメータ更新なしで新しい設定への適応を可能にする。シミュレーションおよび実世界のロボットプラットフォームでの広範な実験により、ICWMが新しいカメラ視点において標準的なVLAベースラインを大幅に上回ることが実証された。
結果ベースの強化学習は、言語エージェントに対して安定した最適化の基盤を提供するが、そのスパースな軌跡レベルの報酬は、どの中間決定を強化または抑制すべきかについての指針をほとんど提供しない。オンポリシー自己蒸留は密なトークンレベルの監督を提供するが、既存のスキル条件付き変種は、外部スキルメモリや検索された特権コンテキストに依存することが多く、これらは維持コストが高く、マルチターン対話において現在のポリシーによって誘導される状態分布と不一致になる可能性がある。我々は、完了したオンポリシー軌跡から直接スキル監督を抽出するフレームワークであるOPID(オンポリシースキル蒸留)を提案する。OPIDは軌跡の事後知見を階層的スキルとして表現する:エピソードレベルのスキルはグローバルなワークフローや失敗回避ルールを捉え、ステップレベルのスキルは重要なタイムステップにおける局所的な決定知識を捉える。重要優先ルーティング機構は、重要な決定が特定された場合にステップレベルのスキルを使用し、それ以外の場合にはデフォルトのガイダンスとしてエピソードレベルのスキルにフォールバックする。選択されたスキルは対話履歴に注入され、古いポリシーが元のコンテキストとスキル拡張コンテキストの両方で同じサンプリングされた応答を再スコアリングできるようにする。結果として得られる対数確率のシフトは、トークンレベルの自己蒸留アドバンテージを生み出し、それがポリシー最適化のために結果アドバンテージと組み合わされる。これによりOPIDは、RLを主要な訓練目的として維持しつつ、密で分布に一致した事後知見による監督を導入する。ALFWorld、WebShop、およびSearch-based QAでの実験は、OPIDが結果のみのRLや既存のスキル蒸留ベースラインと比較して、エージェントの性能、サンプル効率、およびロバスト性を一般的に改善することを示している。コードは https://github.com/jinyangwu/OPID/tree/main で入手可能である。
テキストから画像を生成する(T2I)モデルは顕著な進歩を遂げているものの、明示性が低かったり暗黙的であったり、最新の知識に依存する実世界のリクエストに対しては困難を抱えている。我々はこの課題をコンテキストギャップ、すなわちユーザーのコンテキストとT2Iモデルにとって十分な生成コンテキストとの間のミスマッチとして特定する。このギャップを埋めるために、我々はQwen-Image-Agentを提案する。これは計画、推論、検索、記憶、フィードバックをコンテキスト中心に統合した統一的なエージェントフレームワークである。Qwen-Image-Agentはユーザー入力を部分的なコンテキストとして扱い、コンテキスト認識型計画とコンテキストグラウンディングを通じて生成コンテキストを段階的に構築する。具体的には、コンテキスト認識型計画は不足しているコンテキストを特定し、それをどのように取得・利用するかを計画する。一方、コンテキストグラウンディングは推論、検索、記憶、フィードバックからこのコンテキストを収集する。エージェント画像生成を評価するために、我々はさらにImage Agent Bench(IA-Bench)を導入する。これはプラン、推論、検索、記憶の四つのコア画像エージェント機能をカバーするベンチマークである。IA-Bench、Mindbench、WISE-Verifiedにおける実験では、Qwen-Image-Agentが強力なベースラインを上回り、最先端の性能を達成したことが示された。
古典的な直感では、解答の検証は生成よりも容易であるとされてきた。今日のコーディングエージェントにおいて、この直感は逆転しつつある。基盤モデルの推論能力が強化され、エンジニアリング技術が高度化するにつれ、複雑な候補解を生成することはもはや困難ではなくなり、信頼性の高い検証こそがより難しい問題となっている。私たちが構築できるあらゆる検証器は、人間の意図の単なる代理に過ぎず、意図そのものではない。このことにより、検証には二重の困難が伴う。第一に、意図は本質的に特定が不十分であり、それが達成されたかどうかを正確に確認することは本質的に困難である。第二に、モデル訓練中、最適化によって代理と意図の乖離が拡大し、報酬ハッキングや信号の飽和として現れる。この課題に対処するため、我々は検証信号の品質をスケーラビリティ、忠実性、ロバスト性の3次元で特徴づけ、これらすべてを同時に達成することが中心的な課題であると論じる。さらに、4つの報酬設計 — 汎用コーディングタスク向けテスト検証器、フロントエンドタスク向けルーブリック検証器、実世界エージェントタスクにおけるユーザー検証器、長期的タスク向け自動エージェント検証器 — について研究する。異なるタスクタイプとポリシーの能力レベルにわたって、報酬設計の核心的な課題と、報酬信号をより効果的に活用する方法について詳細な分析と実験を行う。実験結果は、ターゲットを絞った検証設計が報酬ハッキングを効果的に抑制し、タスク完了品質を向上させ、複数の内部および公開ベンチマークで顕著な改善をもたらすことを示している。これらの経験は、一つの核心的な観察結果を指し示している。すなわち、ポリシーの能力が成長し続ける中で、固定された報酬関数は有効性を維持できず、検証は生成器と共進化しなければならないのである。
テキストと視覚に対する統一表現は、よりシンプルなマルチモーダルモデリングと効率的な学習を可能にするため、自然な追求である。しかし、画像をテキストと同じように離散信号として表現することは、必然的に深刻な情報損失を引き起こす。既存の研究は、離散表現における低レベルの詳細と高レベルの意味論のバランスを取ることに苦慮している。再構成型の表現は往々にして意味情報が不足し、一方で意味的に強い特徴量は詳細の深刻な損失に悩まされる。本稿では、ViQ(Visual Quantized Representations)フレームワークを提案する。これは、離散表現における意味論と詳細のバランスを図りながら、ネイティブ解像度の入力をサポートすることで、任意の視覚入力に対する統一された汎用離散表現として機能することを可能にする。本手法は、量子化学習をテキスト整合事前学習と特徴量離散化の2段階に構造化する。テキスト整合事前学習により、事前学習済み言語モデルからの意味的に豊かな教師信号を活用して視覚エンコーダを強化し、ネイティブ解像度の視覚入力を処理できるようにする。離散化の段階では、特徴空間を徐々に圧縮するための近接表現学習戦略と、任意の解像度を柔軟に処理可能な位置認識ヘッド単位量子化機構を提案する。マルチモーダルタスクにおける広範な実験により、ViQは低レベルの再構成において高い精度を維持しつつ、連続かつ高次元な視覚特徴量を持つ最先端のマルチモーダル視覚エンコーダと競争力のある性能を達成することを実証した。また、視覚量子化表現を用いたマルチモーダル学習は効率性を大幅に向上させ、異なるベースLLMや学習レシピにおいて最大20%~70%の高速化を実現することを示す。
投機的復号(SD)は、複数のトークンをドラフトし並列に検証することで自己回帰型大規模言語モデル(LLM)を高速化する手法であるが、スケーリングに限界がある。すなわち、ドラフト予算を増やしても、受理率が高くドラフトのオーバーヘッドが低い場合にのみ速度向上が得られる。この上限を突破することはこれまで困難であった。なぜなら、従来のヘッドベースSD手法は因果性と効率性のジレンマに直面するからである。自己回帰型ドラフターは経路条件付き候補を生成し、より高い受理長を持つ木構造投機的復号に有効だが、ドラフトコストが木の深さに比例して増大する。一方、双方向ブロック拡散ドラフターは全ての位置を1パスで生成するが、分岐に依存しない周辺分布を利用するため、個々には妥当でも相互に矛盾する木を生成しやすく、予算を無駄にして受理率を低下させる。本稿では、1パスでのドラフト効率と分岐単位での因果的条件付けを組み合わせた、ヘッドベースSDフレームワークJetSpecを提案する。JetSpecは、凍結されたターゲットモデルから融合された隠れ状態の上に因果的並列ドラフトヘッドを学習し、ターゲットモデルの自己回帰分解と整合するスコアを持つ候補木を生成する。これにより、JetSpecはより大きなドラフト予算をより長い受理プレフィックスと高いエンドツーエンドの高速化に変換できる。密なモデルとMoE Qwen3モデルを用いた数学、コーディング、チャットのベンチマークにおいて、JetSpecは双方向ヘッドおよび木ベースSDのベースラインを一貫して上回る。H100 GPUでは、MATH-500で最大9.64倍、オープンエンドの対話ワークロードで4.58倍の高速化を達成し、vLLM統合による現実的なサーバ負荷下でのレイテンシ改善も実証した。コードとモデルは https://github.com/hao-ai-lab/JetSpec で公開している。
コンピュータ利用エージェントは、グラフィカルインターフェースまたはプログラムによるコマンドインターフェースを通じてソフトウェアタスクを実行できるが、既存の評価手法では、操作モダリティと、タスク、初期状態、検証手段、許可された操作の差異とが混同されている。本研究では、18のアプリケーションと12のワークフローカテゴリにわたる440のデスクトップタスクからなる、実行レイヤーを一致させたベンチマークを導入する。このベンチマークでは、画面のみのGUIエージェントとスキル媒介型CLIエージェントが、同一の目標、状態、最終状態検証手段を与えられつつ、各モダリティ固有の操作に制限される。この統制された設定において、最も強力なGUIエージェントは59.1%の完全合格率を達成し、最も強力なオリジナルスキルのCLIエージェントの48.2%を上回った。しかし、検証手段によるスキル拡張により、CLIの成功率は69.3%に上昇し、CLIの欠点の多くがモデル能力のみに起因するのではなく、スキルカバレッジの不完全さにあることが示された。これらの結果は、GUIとCLIが異なる実行上のボトルネックを露呈することを示唆している。すなわち、GUIエージェントは長期的なワークフローにおける信頼性の高い接地型インタラクションによって制限される一方、CLIエージェントはスキルインターフェースのカバレッジと拡張性によって制限される。
ジョイントエンベディング予測アーキテクチャ(JEPA)、特に最近のLeWorldModel(LeWM)は、再構築を伴わない視覚的世界モデルの有望な基盤となっている。しかし、視覚的計画において、LeWMは局所的な一段階潜在遷移モデルを繰り返し適用することで候補行動系列を評価する。この自己回帰的なロールアウトにより、計画の計算コストが高くなり、予測軌跡が地平線が長くなるにつれて累積される潜在誤差にさらされる。 我々は、繰り返しの局所ロールアウトを行動プレフィックス予測に置き換える高速潜在世界モデル、Fast LeWorldModel(Fast-LeWM)を提案する。現在の潜在状態と候補行動系列が与えられると、Fast-LeWMはそのプレフィックスをエンコードし、それらのプレフィックスを実行した後に到達する未来の潜在状態を並列に予測する。行動プレフィックスを基本予測単位とすることで、Fast-LeWMは複数の地平線にわたって異なる程度に累積される行動効果を直接モデル化する。 このプレフィックスレベルの監視により、モデルは一段階の状態遷移のみを適合させるのではなく、異なる行動プレフィックスの下で状態が連続的にどのように進化するかを学習することを強制される。計画中、予測器はエンコードされた行動系列から最後のプレフィックストークンを使用して、中間の想像上の状態を明示的にロールアウトすることなく、対応する未来の潜在状態を評価できる。 複数のタスクにおいて、Fast-LeWMはLeWMよりも平均成功率を向上させると同時に計画時間を大幅に削減し、ロールアウト地平線が増加するにつれて成長が著しく遅くなる、より低い開ループ潜在損失を達成する。
ツール使用により大規模言語モデル(LLM)は複雑なタスクを実行できるようになり、近年のエージェント型強化学習(RL)手法はモデル能力の向上に有望である。しかし、RL単独ではツール使用タスクにおいて不安定性や限定的な改善にとどまることが多い。我々の実験では、一部のモデルで性能が急激に低下し、ツール呼び出し構造が機能しなくなる破滅的崩壊(catastrophic collapse)が観察された。分析の結果、これらの失敗は特定の制御トークンにおける予期せぬ確率スパイクに起因し、構造化された実行を妨げているものの、基礎的なツール使用能力自体は保持されており、特定の形式によって隠蔽されているに過ぎないことが明らかになった。この問題に対処するため、我々はオフポリシー教師信号、ヒントベースのガイダンス、誤った事例の教師信号など多様な教師信号群を体系的に調査し、それらを同期的およびインターリーブ型の訓練方式の双方で適用した。教師ありファインチューニング(SFT)とRLをインターリーブすることで安定性が大幅に向上する一方、形式および内容における分布外(OOD)評価では性能が低下することを発見した。また、学習率の影響や設定間の一般化についても分析を行った。これらの結果は、RLの失敗を理解することの重要性を浮き彫りにし、多様な教師信号が探索的学習を導き、複雑な多段階ツール使用タスクにおけるLLMの堅牢な訓練を可能にすることを示している。コードはhttps://github.com/hypasd-art/Tool-RL-Boxで公開している。
エージェントシステムが進化を続け、実世界のシナリオで広く展開されるにつれて、その能力を忠実に評価する需要が高まっています。しかしながら、現在のベンチマークは一般的に、比較的単純なタスクを含む人気アプリケーションに基づいて構築されており、焦点が狭い能力セットに当てられている一方、より広範な次元を見落としているため、現代のエージェントでは性能が飽和状態になり、その限界を探ることができていません。この問題に対処するため、我々はGauntletBenchを導入します。これは、挑戦的なシナリオにおけるエージェントの汎化能力を評価するためのウェブベースのベンチマークであり、3つの未開拓の能力(時間知覚、グラフィカル理解、3D推論)に焦点を当て、5つのあまりカバーされていない専門アプリケーション(ビデオ編集ツール、ワークフロービルダー、3Dモデラー、フライトアナライザー、回路設計ツール)にわたって、それぞれ20の視覚集約型タスク(合計100タスク)を設定しています。本ベンチマークは、オープンソースおよびクローズドソースの両方のエージェントフレームワークと互換性のある環境、制御されたウェブベースのアプリケーション、構造化されたタスクスイート、および多様な評価指標を備えた自動評価エンジンからなるモジュール式パイプラインを提供します。広く期待されていることとは反対に、我々の実証結果は、最先端のエージェントシステムが人間レベルの性能には程遠いことを明らかにしています。最高性能のエージェントでさえ、我々のGauntletBenchではわずか19.1%の成功率しか達成しておらず、これらの見落とされていた能力と汎化における限界を浮き彫りにしています。比較として、非専門家の人間アノテーターは、我々の挑戦的ではあるが実行可能なタスクにおいて80%以上の成功率を達成しており、現在のエージェントの能力と複雑な実世界シナリオに必要な能力との間の大きなギャップを明らかにしています。
広く普及しているデュアルブランチパラダイム、すなわち、視覚的条件を符号化するためのサイドネットワークを学習し、その中間層特徴量を凍結済みの事前学習メインネットワークに融合するアプローチは、視覚的条件に基づく制御可能な生成において顕著な成功を収めている。広く採用されているにもかかわらず、サイドブランチの役割とその学習効率は十分に探求されていない。本稿では、まずスコアベース生成モデリングの観点からこの主流パラダイムを再考する:1) メインネットワークは事前無条件スコアを提供することで視覚的知覚品質を維持する。2) サイドネットワークは暗黙的に尤度スコアを寄与することで条件制御を導く。この視点に基づき、我々はLIkelihood Score Alignment (LISA) を提案する。これは、サイドネットワークの中間特徴量を近似尤度スコアと明示的に整列させる効果的な正則化手法である。具体的には、まずサイドネットワークの指定された層から特徴量をフックし、軽量デコーダによりそれらをスコア潜在空間へ射影する。次に、近似尤度スコアのターゲットを構築し、デコーダの出力とこのターゲットとの距離を追加の正則化損失として計算する。最後に、標準的な拡散損失と我々の正則化損失の両方を用いて、サイドネットワークとデコーダを共同最適化する。様々な画像/映像タスク、アーキテクチャ、拡散モデル/フローモデルにわたる実験により、LISAは学習収束を一貫して加速し最終的な合成結果を改善するだけでなく、無視できる追加学習コストとゼロの追加推論コストで、条件モデリングのためにサイドネットワークの特徴量をより分離されたものにすることが示された。
大規模言語モデル(LLM)における推論能力の急速な向上に伴い、プリフィリング段階とデコーディング段階の両方でキー・バリュー(KV)キャッシュのサイズが増大しています。既存のKVキャッシュ圧縮手法の多くは、トークンの重要度を推定するためにアテンション重みに依存しています。アテンションは文脈上の関連性を効果的に捉える一方で、予測の不確実性やトークンの情報量に関連する相補的な情報理論的シグナルを見落としています。本論文では、将来を見据えた観点からトークンの重要度を再検討し、圧縮されたトークンが将来の文脈にどのように影響するかを測定する指標として、Forward Influenceを導入します。我々の分析により、アテンションスコアによって選択されたトークンは主に近傍の文脈に影響を与えるのに対し、高い予測不確実性を伴うトークンは遠い将来の文脈に対して著しく強い影響を及ぼすことが明らかになりました。この観察に基づき、情報理論的シグナルを統合したエントロピー考慮型KVキャッシュ圧縮フレームワークであるInfoKVを提案します。InfoKVは、トークンレベルの予測不確実性と層別の表現進化を組み合わせ、得られたエントロピースコアを推論中にアテンションスコアと統合します。Llama-3.1、Llama-3.2、DeepSeek-R1を用いた長文脈推論ベンチマークでの実験により、InfoKVが長いプリフィリングとデコーディングの両シナリオにおいて、既存のアテンションに基づくKV圧縮手法を一貫して上回ることが実証されました。
ビデオ推論言語モデルは、暗黙的にすべての入力フレームが等しく信頼できると仮定する。この仮定は、我々が「盲目的信頼問題」と呼ぶ現象を引き起こす。すなわち、動きぼけ、グレア、遮蔽といった現実的な摂動下において、最先端のビデオ推論モデルは、実世界の身体性ベンチマークで15~30%ポイントの精度低下を被る一方、自身の視覚的証拠が劣化していることに気づかないのである。この課題に取り組むため、我々はRobust-TOを提案する。これは、推論のあらゆる段階にフレーム単位の信頼性を明示的に組み込むエージェント型ビデオ理解フレームワークである。Robust-TOは、異種の視覚認識ツールを統一的エビデンスインターフェースのもとに整理する。各ツールは、元の質問から派生したサブクエリと、信頼性・関連性スコアによって選択された信頼できるフレーム群を受け取る。ツールは、具体的な予測(例:バウンディングボックス、動作軌跡、認識されたテキスト、行動ラベル)、時間的グラウンディング、そして較正された信頼性スコアという共通形式のエビデンスを返す。推論時には、これらの較正されたスコアが、三段階(高/中/低)の統合プロセスにおけるエビデンスの重み付けを導き、正確性、エビデンスの信頼性、効率を同時に最適化する信頼度コストGRPO報酬を定義する。8タスクにわたる2つのビデオ推論ベンチマークにおいて、Robust-TOはクリーンな入力で平均精度56.4%を達成し、最も強力なオープンソースベースラインを10.6ポイント上回り、Gemini-2.5-Pro(46.2%)を凌駕した。また、5種類の現実的な劣化条件下では、Robust-TOは平均精度54.3%を維持し、最も強力なオープンソースベースラインを5.8ポイント上回り、比較手法の中でクリーンから劣化への精度低下が最小であった。
本研究では、物理的に妥当な3D物体の動きを生成する拡散トランスフォーマー「PhysiFormer」を提案する。動画世界モデルが視点に依存したピクセル空間で動作するのに対し、PhysiFormerは物体をワールド座標系で表現された3Dメッシュとして扱う。本モデルは、初期の頂点位置と速度、さらに物体の材質タイプ(剛体または弾性体)が与えられると、将来の頂点軌跡をサンプリングする。関連するニューラル物理アプローチでは、アドホックな潜在空間に依存したり、剛性や因果性を明示的に強制したりするが、PhysiFormerは、頂点軌跡予測をワールド座標上での単一の拡散ノイズ除去プロセスとして定式化することで、そのような帰納バイアスを一切用いずに優れた結果が得られることを示す。この確率的定式化は学習された力学の不確実性を捉え、初期条件から多様な可能な未来を生成することを可能にし、観測されない不確実性を伴う応用において有用な枠組みとなる。本モデルは、効率性のために時間、空間、物体にわたって注意機構を分解しており、明示的な物体エンコーディングを必要とせずに置換不変なマルチ物体推論を実現する。10万以上のシミュレーション軌跡で学習されたPhysiFormerは、剛体および弾性体の力学を生成し、混合材質設定、未観測の実世界形状、より多数の物体への一般化を実現する。軌跡精度、剛性保存、運動量に基づく物理的一貫性において、自己回帰ベースラインを大幅に上回る。本研究の成果は、座標空間における拡散が、ロボティクス、グラフィックス、物理設計における視点不変かつ幾何学的認識を備えた世界モデリングへの有望な一歩となることを示している。可視化、コード、モデルはhttps://yimingc9.github.io/physiformerで公開している。
現代の生成的世界モデルは、ますます現実的なアクション制御可能な未来を描き出すが、頻繁に幻覚を生じる。すなわち、ロールアウトは視覚的に流暢でありながら、実際のダイナミクスから乖離するのだ。我々は、幻覚が状態行動空間の低カバレッジ領域に集中するという仮説を立てている。この領域では、軽量なデータ中心のシグナルが幻覚を検出し、緩和を導くことができる。これを検証するため、我々はMMBench2を紹介する。これは、427時間、210タスクからなるビジュアルワールドモデリング用データセットであり、正解のアクション、報酬、ライブシミュレータを備えている。そして、このデータセットで3億5000万パラメータのワールドモデルを訓練する。我々は3つの異なる幻覚モードを特定する。すなわち、知覚的幻覚、アクション周縁化幻覚、シーン逸脱幻覚であり、それぞれがパイプラインの異なる段階に起因する。そして、モデルがどこで失敗するかを正確に予測する3つのシグナルを開発する。訓練時のカバレッジのギャップを埋めるため、カバレッジを考慮したサンプリング手法を開発する。オンラインでギャップを埋めるため、我々の幻覚予測器が好奇心報酬として機能し、対象を絞ったデータ収集を可能にする。これにより、わずか50の実環境軌道で、事前学習済みワールドモデルを全く未知の環境に適応させるデータ効率的な微調整手法が得られる。全体として、我々の発見は、ワールドモデルにおける幻覚が本質的にデータカバレッジの問題であること、そしてその検出に用いたのと同じシグナルが緩和にも使用できることを明らかにしている。 本論文のインタラクティブなウェブ版は https://www.nicklashansen.com/mmbench2 で公開されている。
LLMエージェントがますます長期的なタスクを遂行できるようになるにつれ、経済システムにおけるその性能を評価することの重要性が高まっている。既存のベンチマークの多くは、受動的な環境と相互作用する単一のエージェントを主に評価するが、経済システムは本質的にマルチエージェントであり、自律エージェントが長期間にわたって自らの目的を追求しながら、コミュニケーション、交渉、取引を行う必要がある。本稿では、異質な企業から構成される長期的マルチエージェント経済においてLLMエージェントを評価するためのベンチマーク、CoffeeBenchを紹介する。CoffeeBenchでは、2人の農家、2人の焙煎業者、2人の小売業者が90日間のシミュレーションの中で自律的に事業を運営し、コミュニケーションと取引を通じて累積純利益を最大化することを目指す。各エージェントは、現金、在庫、価格設定を管理する。評価対象のモデルは1つのコーヒー焙煎業者を制御し、残りの企業は固定された参照エージェントによって制御される。最近のオープンウェイトおよびプロプライエタリな複数のLLMにおいて、すべてのモデルが何も行動しない受動的ベースラインを上回り、大半が正の純利益を達成した。エージェントの行動分析からは、長期的な経済的相互作用に大きな差異が明らかになった。すなわち、性能の高いモデルほど他の企業と積極的にコミュニケーションを取る一方、Claude Haiku 4.5では、首尾一貫した評価や計画を生成するにもかかわらず、繰り返し無行動を選択する「アイドル漂流」という障害モードが観察された。今後の研究を支援するため、コードとエージェントの軌跡を公開する。
プロセス報酬モデルは、LLMの細粒度なステップレベルの評価を可能にするが、それをエージェント的設定で構築することは依然として極めて困難である。長期的インタラクション、不可逆なアクション、確率的環境フィードバックにより、人間によるアノテーションとモンテカルロ推定の両方を大規模に実行することが不可能になるからである。本研究では、強化学習(RL)のポストトレーニングが、効果的なステップレベルスコアリングのための要素をすでに提供しており、専用の報酬モデルトレーニングを全く不要にすることを示す。具体的には、一般的な確率的マルコフ決定過程の下で暗黙的アドバンテージを導出し、これをプログレスアドバンテージと呼ぶ。RL訓練されたポリシーとその参照ポリシーとの間の対数確率比が、最適なアドバンテージ関数を正確に再現する。この定式化により、得られる信号はアノテーション不要、ドメイン非依存となり、標準的なRLポストトレーニングパイプラインの副産物として利用可能になる。我々は、プログレスアドバンテージの有効性を、5つのベンチマークと4つのモデルファミリーにおいて、テスト時スケーリング、不確実性定量化、失敗帰属という3つの異なるアプリケーションで検証する。すべての設定において、信頼度ベースのベースラインを一貫して上回り、タスク固有のトレーニングを必要としないにもかかわらず、専用の訓練済み報酬モデルを凌駕する。これらの結果を補完するために、プログレスアドバンテージの特性に関するより深い分析を行い、現実世界のエージェントシステムでの採用に向けた実践的なガイダンスを提供する。
広く使われているにもかかわらず、報酬モデルが強化学習を形成する役割は十分に理解されていない。報酬モデルは魅力的な可能性を提供する。検証者や人間の評価者がいない状況で、応答品質を自動的に推定するのである。通常は二値スコアを生成する「検証可能な報酬」とは異なり、報酬モデルは通常、連続スコアを生成し、応答の細かな差異に敏感になることを可能にしている。しかし、この一見した強みが重大な弱点であることを我々は示す。多くの一般的な報酬モデルは過敏であり、同等に良い応答に異なるスコアを割り当てる。理論的には、一見完璧な報酬モデルが極めて過敏になり得ることを示す。実験的には、この過敏性が悪い方策につながることを示す。既存の「報酬モデルの精度」という概念に代えて、報酬モデルを評価するために、「弁別能力」と「特異性」(過敏性の補集合)という異なる指標を用いることを提案する。解決策として、任意のニューラル報酬モデルにモンテカルロドロップアウトを適用し、離散的な報酬クラスタを生成する学習不要のアルゴリズムを説明する。理論的には、弁別能力を最小限に犠牲にして過敏性を低減する離散化が存在することを証明する。実験的には、制御環境および自然環境の両方の強化学習設定において、報酬を離散化することで、元の報酬で学習するよりも報酬ハッキングが減少し、より良い方策が得られることを示す。
生成AIは検証可能な解を伴う問題解決において顕著な成功を収めてきたが、厳密な幾何学的制約と主観的な視覚的美学の両方を満たす物理芸術の生成は依然として課題である。本稿では、これらの困難に取り組むためのアプローチを、数学的に厳格な環境であり、平坦折り可能性の方程式に芸術的デザインを基づける計算折り紙の領域において提示する。我々は、自然言語から折り目パターンを生成することでデザインサイクルを支援するエンドツーエンドのAI駆動パイプラインであるCOrigamiを提案する。このパイプラインは、意味的なスティックフィギュアの生成、ベースパッキングの計算、平坦折り可能な折り目パターンの求解、平坦折りされた折り目パターンの整形、そして自律的な美的評価ループによって駆動される強化学習を用いた生成モデルの洗練を含む。本システムは、人間のアーティストがさらに拡張・整形可能な構造的起点を生成する、極めて効果的な協調的アシスタントとして機能する。アルゴリズム的最適化と自律的な美的批評を統合することにより、本論文はAIシステムが多目的な物理的制約を満たし、信頼性が高く数学的に基づいた共創を可能にする方法を示している。
ABACUSは、物体カウント、群衆カウント、指示表現に基づくカウント、およびカウントに忠実な画像生成を、ベンチマーク固有のトレーニングを必要とせずに処理する統合視覚言語モデルです。本モデルは既存の3Bパラメータの統合基盤モデルを基盤とし、以下の3つの主要な革新を用いて物体位置特定タスクに適応しています:物体マップを用いた密度認識適応ズーミングによる空間接地;GRPOによる境界認識カウントポリシーでクロップ境界誤差を排除;さらに、サイクル一貫性GRPO戦略により理解ブランチが生成出力を自己批評し、外部アノテーションなしで理解と生成のギャップを解消します。ABACUSは7つのベンチマークで最先端の結果を達成し、タスク固有の専門家モデルやより大規模な汎用モデルを凌駕しています。
動作する引用は証拠のように見えるが、リンクが解決されるという事実は、引用された論文が主張を支持していることを意味しない。現在のエージェントモデルが引用を捏造することはほとんどない(99%以上が解決される)が、約15.9%は誤った論文にリンクしていることがわかった。既存のベンチマークはこの失敗モードを見逃している。質問に固定された解答鍵がある場合、モデルはその鍵から期待されるソースを再現でき、ソースが主張を支持しているかを独立に検証しない。私はOpenBioRQを紹介する。これは12のドメインにわたる12,553の未解決の生物医学研究質問からなる検索基盤型エージェントベンチマークであり、未解決質問を忠実性と棄権のプローブとして扱う。私の知る限り、これはエージェント設定(モデルが複数のツール呼び出しを行う必要がある)と、解答鍵のない未解決質問を組み合わせた最初の生物医学ベンチマークである。未解決性は、モデルのパラメトリック知識ではなく、実際の追跡証拠に基づいて検証される。難易度は経験的に決定される。主観的な硬さのラベルではなく、3つのオープンウェイトの参照モデルが回答に失敗する質問に基づいて設定される。この最も難しいサブセットでは、難易度アンカーと同じ系統の保留モデルは約17%しか解けないのに対し、3つの独立したフロンティアエージェント(Gemini-3-Pro、Opus-4.7、GPT-5.5)は29~60%の広い範囲にわたる。したがって、このベンチマークは難しく、飽和せず(最良のエージェントでも約33~40%が未解決)、能力層間で識別力がある。難易度に加えて、最も難しい質問においてエージェント崩壊(エージェントがツールの使用を停止する)を観察した。最も崩壊しやすいモデルでは、ツールへのアクセスを完全にブロックしてもスコアがほとんど変わらない。つまり、ツールが必要とされるまさにその場でツールが効果を発揮しなくなる。固定された質問ごとのチェックリストにより、評価者間一致度がスピアマン相関係数0.35から0.82に向上する。
ルーティング、投票、カスケード、フュージョン、ミクスチャー・オブ・エージェントなどのマルチモデルLLMシステムは、単一モデルの精度を上回るために用いられる。本稿では、その利得がこの分野ではほとんど報告されない量によって制限されていることを示す。出力が単一の構成モデルによる回答である任意の方針について、精度は1からβを引いた値を超えることはできない。ここでβは、すべてのモデルが同一クエリに対して誤答する割合である。対照的に、通常の診断指標である平均ペアワイズ誤差相関ρはβを特定できない。同一の周辺分布とペアワイズ相関を持つ誤差法則でも、全誤答率は異なり得るからである。βに対するClopper-Pearson境界は、ルーターを訓練する前に、任意のルーター、投票、またはカスケードが達成し得る最大利得に関する有限標本の保証を与える。 21のプロバイダーからの67モデルにおいて、四分相関で校正された単因子モデルでも、全誤答の裾野を過小評価している。自由記述形式の数学問題では、観測されたβは0.052であるのに対し、完全な67モデルガウス・コピュラのもとでのβは0.023であり、約2.5倍の過小評価となっている。90%信頼区間は1.7~3.4、k = 17である。この効果は実行評価型コード問題でも再現され、βは0.079である。同じGPQA-Diamondの質問を多肢選択形式ではなく自由回答形式で再度尋ねると、裾野が再び広がり、βは0.127となり、κが0.73~0.92の5人の判定者パネルでは、共失敗がテーマではなく回答形式に起因することが特定された。品質が同等の場合、低ρの異種アンサンブルは高ρのSelf-MoAを上回るが、本評価プール内の検証可能なタスクでは、強力なクエリレベルのルーティング信号なしに、モデルを組み合わせても単一の最良モデルを上回ることはほとんどない。利得は、より多くのモデルを追加することではなく、異なる質問で失敗するモデルから生じる。
生物学の科学推論モデルは、言語モデルと、DNA、RNA、タンパク質などのマルチモーダルな生物学データで学習された基盤モデルを組み合わせたものである。これらのモデルはポストトレーニングによって構築されるが、各段階が推論と汎化をどのように形成するかは、未だ十分に解明されていない。本研究では、ポストトレーニングがいつ性能を向上させ、いつ過剰特化を引き起こすのかを調査する。 ゲノミクス、トランスクリプトミクス、タンパク質にわたって、バックボーン、継続事前学習(CPT)、教師ありファインチューニング(SFT)、強化学習(RL)の制御された変動のもとで100以上の生物学推論モデルを訓練・評価し、ドメイン内(ID)とドメイン外(OOD)の両方の性能を測定した。 その結果、各ポストトレーニング段階は一様な向上をもたらすのではなく、それぞれ異なる方法で汎化を再形成することが明らかになった。CPTはモデルを生物学的言語に適合させることで下流性能を向上させる。SFTは一貫してID性能を向上させるが、モデルが訓練分布に適合するにつれてOOD性能は早期にピークに達し、その後低下する。RLを、調整された報酬を持つ強力なSFTチェックポイントに適用すると、OOD性能が向上し、汎化が部分的に回復する。 これらの結果は、生物学的推論が追加の教師信号や計算量に比例して単調に向上するわけではないことを示している。むしろ、性能は訓練段階の構成方法に依存する。固定のポストトレーニング予算の下では、最も強いID-OODトレードオフは、短いSFT、より多くのRL割り当て、および段階間の非対称な適応能力から生じる。
地球観測(EO)予測は、変化する気象条件下での衛星観測に基づき、将来の地球表面動態を予測することを目的とする。本論文では、このタスクを部分的に観測された気象駆動型の世界モデリング問題として捉える。ここでは、気象が条件付け信号として機能する一方で、観測の疎らさや未観測の陸面状態により予測は不確実性を伴う。しかし、既存の手法ではこの設定を十分に捉えられていない。すなわち、決定論的モデルは不確実性を単一の将来予測に潰してしまい、拡散モデルに基づく手法は気象変数を無差別な条件付け信号として扱う傾向があり、既存のベンチマークは主に再構成精度に焦点を当てており、予測が変化した気象強制に対して正しく応答するかどうかは重視していない。 本稿では、多スペクトルEO予測のための動画拡散トランスフォーマーであるEO-WMを提案する。EO-WMは、気候学的ベースライン、気象異常、および累積的な物理的ストレス信号を通じて気象強制を表現する、物理的に情報を考慮した条件付けフレームワークを統合する。具体的には、異なる条件付け経路を通じてベースラインと異常を分離し、異常な強制を時間的に蓄積することで、持続的な暑熱および干ばつストレスを捉える。標準的な指標を超えて気象応答行動を評価するために、本稿では2つの診断用ベンチマークを導入する。すなわち、極端な気象下での植生劣化の深刻度を考慮した予測のためのExtreme Summer Benchmark、および変化した気象強制下での応答の忠実性をテストするためのSeasonal Matched-Pair Benchmarkである。実験の結果、EO-WMは予測された正規化植生指数(NDVI)の低下振幅の誤差を5.63%相対的に削減し、方向別ヒット率を7.80%相対的に改善するとともに、標準的な画素レベルの指標でも競争力を維持していることが示された。これらのベンチマークとモデルはオープンソースとしてhttps://github.com/Luo-Z13/EO-WM で公開される予定である。