翻訳付きの日次キュレーションされたAI研究論文
マルチモーダル大規模言語モデル(MLLM)は文書理解を大幅に進歩させてきたが、現在のDoc-VQA評価では最終回答のみを採点し、それを裏付ける証拠は未検証のままである。この回答のみのアプローチは、重大な失敗モードを隠蔽している。すなわち、モデルが正しい回答にたどり着きながら、その根拠を誤った箇所に基づいてしまうことである。これは、あらゆる結論が特定のソース領域にトレース可能でなければならない法律、金融、医療といった高リスク領域において深刻なリスクとなる。この問題に対処するため、我々はCiteVQAを提案する。CiteVQAは、モデルが回答とともに要素レベルのバウンディングボックスによる引用を返すことを要求し、両者を同時に評価するベンチマークである。CiteVQAは、7つのドメインと2言語にわたる711のPDF(平均40.6ページ)に対して1,897の質問から構成される。正解引用の忠実性とスケーラビリティを確保するため、正解ラベルの引用は、マスキングアブレーションによって重要な証拠を特定する自動パイプラインによって生成され、その後専門家によるレビューで検証される。評価の中心はStrict Attributed Accuracy(SAA)であり、これは回答と引用領域の両方が正しい場合にのみ予測を正解とみなす。20のMLLMを監査した結果、広く「帰属幻覚(Attribution Hallucination)」が観察された。すなわち、モデルは正しい回答を生成しながらも、誤った領域を引用するのである。最も強力なシステム(Gemini-3.1-Pro-Preview)のSAAはわずか76.0であり、最も強力なオープンソースMLLMでは22.5に過ぎない。最終的に、信頼できる文書知能に向けて、CiteVQAは回答のみの評価が見逃していた信頼性のギャップを露呈し、それを埋めるために必要な手段を提供する。我々のリポジトリは https://github.com/opendatalab/CiteVQA で公開されている。
視覚-言語-行動モデルは急速に進歩しているが、ロボットの軌跡だけでは広範な物理的理解を学習するためのカバレッジが限られている。PhysBrain 1.0は、補完的なルートとして、ロボット適応前に大規模な人間の一人称視点ビデオを構造化された物理的常識の教師信号に変換する方法を研究している。私たちのデータエンジンは、シーン要素、空間ダイナミクス、行動実行、深度を考慮した関係性を抽出し、それらをPhysBrain VLMを訓練するための質問応答型教師信号に変換する。得られた物理的先行知識は、能力を保持し言語に敏感な適応設計を通じて、さらにVLAポリシーへと転送される。ERQA、PhysBench、SimplerEnv-WidowX、LIBERO、RoboCasaなどのマルチモーダルQAベンチマークおよび具現化制御ベンチマークにおいて、PhysBrain 1.0はSOTA(最先端)の結果を達成し、特にSimplerEnvでのドメイン外性能が優れている。これらの結果は、人間のインタラクションビデオから物理的常識をスケールアップすることが、マルチモーダル理解からロボット行動への効果的な橋渡しを提供できることを示唆している。
再利用可能なスキルはエージェントの能力向上における中核基盤となっているが、既存のスキルパッケージのほとんどは、再利用可能な振る舞いを主にテキストプロンプト、実行可能コード、または学習されたルーチンとして符号化している。しかし、視覚エージェントにとって、手続き的知識は本質的にマルチモーダルである。再利用は、どの操作を実行するかだけでなく、関連する状態の認識、進行や失敗の視覚的証拠の解釈、次に何をすべきかの決定にも依存するからである。我々はこの要件をマルチモーダル手続き的知識として形式化し、以下の3つの実用的課題に取り組む。(I) マルチモーダルスキルパッケージは何を含むべきか、(II) そのようなパッケージを公開されたインタラクション経験からどのように導出できるか、(III) エージェントが推論時に過剰な画像コンテキストや参照スクリーンショットへの過度な固定なしにマルチモーダル証拠をどのように参照できるか。我々はMMSkillsを紹介する。これは、実行時視覚的意思決定のための再利用可能なマルチモーダル手続きを表現、生成、使用するためのフレームワークである。各MMSkillは、テキスト手続きと実行時状態カードおよび多視点キーフレームを結合した、コンパクトで状態条件付きのパッケージである。これらのパッケージを構築するために、我々はエージェント軌跡からスキルへの生成器を開発する。これは、公開された非評価用軌跡を、ワークフローグループ化、手続き帰納、視覚的グラウンディング、メタスキル誘導監査を通じて再利用可能なマルチモーダルスキルに変換する。これらを使用するために、我々はブランチロード型マルチモーダルスキルエージェントを導入する。選択された状態カードとキーフレームが一時的ブランチで検査され、実環境と位置合わせされ、メインエージェント向けの構造化されたガイダンスに蒸留される。GUIおよびゲームベースの視覚エージェントベンチマークにわたる実験により、MMSkillsが最先端および小型のマルチモーダルエージェントの両方を一貫して改善することが示され、外部マルチモーダル手続き的知識がモデル内部の事前知識を補完することを示唆している。
人間中心のビデオカスタマイゼーション、特に衣類レベルでのカスタマイズは、商業的に大きな価値を示している。しかし、既存の手法では、電子商取引やコンテンツ制作といった応用において重要となる、低遅延かつインタラクティブな衣類制御を実現できない。本論文では、単一の衣類ビデオデータのみを用いて、動作の一貫性を保ちながらインタラクティブな複数衣類ビデオカスタマイゼーションを達成する方法を研究する。我々はFashionChameleonを提案する。これは、自己回帰型ビデオ生成における人間の衣類カスタマイゼーションのためのリアルタイムかつインタラクティブなフレームワークであり、ユーザーは生成中にインタラクティブに衣類を切り替えることができる。FashionChameleonは以下の3つの主要技術から構成される。(i) 複数衣類ビデオデータでの学習ではなく、単一の参照衣類ペアを用いたインコンテキスト学習により教師モデルを訓練する。画像からビデオへの学習パラダイムを維持しつつ、参照画像と衣類画像の間にミスマッチを強制することで、モデルは単一衣類切り替え時に暗黙的に一貫性を保つように促される。(ii) 生成中の一貫性と効率性を達成するため、インコンテキスト学習を用いたストリーミング蒸留を導入する。これは、インコンテキストの教師強制によってモデルを微調整し、勾配再重み付け分布マッチング蒸留により外挿の一貫性を向上させる。(iii) モデルをインタラクティブな複数衣類ビデオカスタマイゼーションに拡張するため、学習不要のKVキャッシュ再スケジューリングを提案する。これには、衣類KVのリフレッシュ、過去のKVの引き出し、参照KVの分離が含まれ、動作の一貫性を保ちながら衣類切り替えを実現する。我々のFashionChameleonは、インタラクティブなカスタマイゼーションと一貫性のある長尺ビデオ外挿を独自にサポートし、単一GPU上で23.8 FPSのリアルタイム生成を達成する。これは既存のベースラインと比較して30~180倍高速である。
オン-ポリシー蒸留(OPD)は、大規模言語モデルに対する効率的な学習後パラダイムとして登場した。しかしながら、既存の研究では、この利点は主により密で安定した教師信号に帰属されており、OPDの効率性の根底にあるパラメータレベルのメカニズムについてはほとんど理解されていない。本研究では、OPDの効率性は一種の「先見性」に由来すると主張する。すなわち、学習の初期段階で最終モデルに向けた安定した更新軌道を確立するのである。この先見性は二つの側面に現れる。第一に、モジュール割り当てレベルでは、OPDは限界効用の低い領域を特定し、推論により重要なモジュールに更新を集中させる。第二に、更新方向レベルでは、OPDはより強い低ランク集中を示し、その支配的部分空間が学習初期から最終的な更新部分空間と密接に一致する。これらの知見に基づき、我々はEffOPDを提案する。これは、外挿ステップサイズを適応的に選択し、現在の更新方向に沿って移動することでOPDを高速化するプラグアンドプレイの高速化手法である。EffOPDは追加の学習可能モジュールや複雑なハイパーパラメータ調整を必要とせず、最終性能を同等に維持しながら平均3倍の学習高速化を達成する。総じて、我々の知見はOPDの効率性を理解するためのパラメータダイナミクスの視点を提供し、大規模言語モデルに対するより効率的な学習後手法を設計するための実践的な洞察を与える。
人間レベルの操作を実現するには、複雑な物体操作が可能な器用なロボットハンドが必要である。さらなる能力向上のためには、体系的な評価のための標準化されたベンチマークが求められる。しかし、既存の器用操作ベンチマークには、パラレルグリッパと比較した器用ハンド特有の操作能力を反映したタスクや、包括的な評価パイプラインが不足している。本論文では、タスク指向の器用操作のためのベンチマークおよびツールキットであるDexJoCoを提案する。DexJoCoは、ツール使用、両手協調、長期的実行、推論を評価する11の機能的に基づいたタスクで構成される。低コストのデータ収集システムを開発し、これらのタスクにわたって1.1Kの軌道を収集し、ロバスト性評価のためのドメインランダム化をサポートする。我々は、視覚と動学のランダム化、マルチタスク学習、アクションヘッド適応など多様な設定下で現代のモデルをベンチマークする。広範な実証分析を通じて、現在の器用操作ポリシーにおける重要な知見と共通の限界を特定し、器用ハンドロボット学習における今後の研究の主要な課題を明らかにする。プロジェクトページ:https://dexjoco.github.io
大規模推論モデルの蒸留は、Long-CoT推論を実用的にするために不可欠である。なぜなら、完全な規模での推論は計算的に依然として非現実的だからである。既存のキュレーションベースの手法は、完全な推論軌跡を事後的に選択するものであり、異種教師間の協調を見落とし、動的探索を欠いている。その結果、冗長なサンプリングと相補的推論の欠落が生じる。本稿では、予測困惑度スコアリングとビーム探索に基づくステップワイズな推論合成を実行する協調型マルチ教師デコーディングフレームワークであるCoRDを提案する。これにより、異種の大規模推論モデル(LRM)が協調して一貫性のある推論軌跡を構築し、多様で有望な仮説を効率的に保持できる。実験により、CoRDはより高品質な推論データを生成し、効率性の大きなオーバーヘッドなしに、より少ない構造化された教師信号で、教師に近いレベルの学生パフォーマンスを達成することを示す。さらに、CoRDはドメイン外やオープンエンドの設定にも良好に一般化する。データセットとモデルはhttps://github.com/DISL-Lab/CoRDで公開している。
テキストと顔は、視覚生成において最も知覚的に顕著で実用的に重要なパターンの一つであるが、離散トークン化に基づく自己回帰型生成器にとっては依然として課題となっている。主要なボトルネックはトークナイザにある。すなわち、過度なダウンサンプリングと量子化により、読み取り可能なグリフや特徴的な顔の詳細を保持するために必要な微細構造がしばしば失われる。このギャップは、標準的な離散トークナイザの目的関数がテキストの可読性や顔の忠実性と弱くしか対応していないことに起因していると考えられる。なぜなら、これらの目的関数は通常、汎用的な再構成を最適化しつつ、多様なコンテンツを一律に圧縮するからである。この問題に対処するため、我々はInsightTokを提案する。これは、局所的かつコンテンツ認識型の知覚損失を通じてテキストと顔の忠実性を向上させる、シンプルかつ効果的な離散視覚トークン化フレームワークである。InsightTokは、コンパクトな16kコードブックと16倍のダウンサンプリング率を備え、汎用的な再構成品質を損なうことなく、テキストと顔の再構成において従来のトークナイザを大幅に凌駕する。これらの利点は、InsightARにおける自己回帰型画像生成にも一貫して転移し、より鮮明なテキストとより忠実な顔の詳細を備えた画像を生成する。全体として、本結果は、離散画像生成の進歩に向けたトークナイザ訓練における特殊化された監督の可能性を浮き彫りにしている。
グループ相対方策最適化(Group Relative Policy Optimization)は、ビデオ拡散モデルを人間の嗜好に合わせるために不可欠な手法として登場したが、重大な計算上のボトルネックに直面している。すなわち、140億パラメータモデルの訓練には、実験あたり通常数百GPU日を要する。既存の効率化手法は、スライディングウィンドウサブサンプリングによる訓練タイムステップの削減を通じてコストを低減するが、根本的に最適化を損ない、深刻な不安定性を示し、全軌道性能に達することができない。本稿では、Flash-GRPOを提案する。これは単一ステップの訓練フレームワークであり、低計算予算下でアライメント品質において全軌道訓練を上回り、かつ訓練効率を大幅に向上させる。Flash-GRPOは2つの重要な課題に取り組む。等時性グループ化(iso-temporal grouping)は、プロンプト単位の時間的一貫性を強制することでタイムステップ交絡分散を除去し、方策性能をタイムステップ難易度から切り離す。時間勾配補正(temporal gradient rectification)は、タイムステップ間で勾配の大きさに大きな不整合を引き起こす時間依存スケーリング因子を中和する。13億から140億パラメータモデルでの実験により、Flash-GRPOの有効性が検証され、一貫した安定性と最先端のアライメント品質を伴う大幅な訓練高速化が実証された。
検証可能報酬による強化学習(RLVR)は、大規模言語モデルの推論能力を向上させるためのスケーラブルなパラダイムとして登場した。しかし、その有効性は基本的に探索によって制限されている。すなわち、方策は既にサンプリングした軌跡上でのみ改善できる。ロールアウトの数を増やすことでこの問題は緩和されるが、そのような力任せのスケーリングは計算コストが高く、また最適化目的を変更する既存のアプローチでは、何が探索されるかに対する制御が限られている。本研究では、RLVRにおける構造化され多様性に駆動された探索のためのフレームワークであるNudgeRLを提案する。我々のアプローチは戦略誘導(Strategy Nudging)を導入する。これは各ロールアウトを軽量な戦略レベルのコンテキストに条件づけることで、高コストなオラクル監視に依存せずに多様な推論軌跡を誘導する。このような構造化された探索から効果的に学習するために、さらに統一目的関数を提案する。これは報酬信号をコンテキスト間およびコンテキスト内成分に分解し、発見された振る舞いを基本方策に転送するための蒸留目的関数を組み込む。実験的に、NudgeRLは最大8倍のロールアウト予算を持つ標準GRPOを上回り、また5つの挑戦的な数学ベンチマーク全体で平均してオラクル誘導RLベースラインを上回る。これらの結果は、構造化されたコンテキスト駆動型探索が、力任せのロールアウトスケーリングと特権情報に基づく実現可能性指向手法の両方に対する効率的かつスケーラブルな代替手段となり得ることを示している。我々のコードは https://github.com/tally0818/NudgeRL で公開されている。
現在のゲーム世界モデルは、主観的かつプレイヤー中心の視点から環境をシミュレートする。しかし、ノンプレイヤーキャラクター(NPC)を単なる背景ピクセルとして扱うため、これらのモデルはプレイヤーとNPC間の相互作用を捉えることができない。その意味で、それらは真のシミュレーションエンジンではなく、受動的な映像レンダラーとして機能し、行動によって誘発されるNPCの反応をモデル化するために必要な物理的理解を欠いている。我々は、プレイヤーとNPC間の動的相互作用を合成する反応型ゲーム世界モデルであるReactiveGWMを提案する。ReactiveGWMは、すべての相互作用ダイナミクスを混在させるのではなく、プレイヤーの操作とNPCの振る舞いを明示的に分離する。プレイヤーの行動は、軽量な加算バイアスを介して拡散バックボーンに注入され、一方で高レベルのNPC応答(例:攻撃、制御、防御)はクロスアテンションモジュールを通じて接地される。重要なのは、これらのモジュールがインタラクティブなロジックのゲーム非依存表現を学習する点である。これにより、ゼロショット戦略転送が可能となる。すなわち、学習されたモジュールは、異なるゲームの既製で未注釈の世界モデルに直接プラグインできる。これにより、ドメイン固有の再学習なしに、操作可能なNPCインタラクションを即座に実現する。2つのストリートファイターゲームで評価した結果、ReactiveGWMは細粒度のプレイヤー制御性を維持しつつ、プロンプトに沿った堅牢なNPC戦略順守を達成し、拡張可能で戦略に富んだNPCとのインタラクションへの道を拓く。
Group Relative Policy Optimisation (GRPO)は、サンプリングされた複数の軌跡にわたってアドバンテージを推定することで、大規模言語モデルを強化する。しかしながら、これらの軌跡レベルのアドバンテージを方策の更新にマッピングするには、各系列内でトークンレベルの確率を集約する必要がある。このステップに固定された集約メカニズムを利用することは、アルゴリズムの適応性を根本的に制限する。経験的に、我々は重要なトレードオフを観察する:特定の固定集約は頻繁に訓練崩壊を引き起こす一方、他の集約は満足のいく性能を達成できない。この問題を解決するために、我々はヘルダー平均を介してトークンレベルの確率集約を統合する一般化された方策最適化フレームワーク、HölderPOを提案する。パラメータpを明示的に調整することで、我々のフレームワークは勾配集中と分散限界の間のトレードオフを連続的に制御する。理論的に、我々はpが大きいと勾配を集中させて疎な学習信号を増幅し、一方pが小さいと勾配分散を厳密に制限することを証明する。静的な設定ではこの集中と安定性のトレードオフを普遍的に解決できないため、我々は訓練ライフサイクル全体でpを漸進的にスケジュールする動的アニーリングアルゴリズムを用いてフレームワークを具体化する。広範な評価により、既存のベースラインよりも優れた安定性と収束性を示す。具体的には、我々のアプローチは複数の数学ベンチマークにおいて最先端の平均精度54.9%を達成し、標準的なGRPOに対して7.2%の顕著な相対的向上をもたらし、ALFWorldでは93.8%という例外的な成功率を達成する。
大規模言語モデル(LLM)は、難しい競技プログラミングの厳密な推論要件に依然として苦戦している。最近のマルチエージェントフレームワークはこの信頼性のギャップを埋めようとしているが、それらは根本的にステートレスである。すなわち、静的な検索に依存し、以前のタスクから得た貴重な問題解決やデバッグの経験を破棄してしまう。この問題に対処するため、我々はSolvitaを提案する。これは基盤となるLLMの重み更新を必要とせずに継続的学習を可能にするエージェンティック進化フレームワークである。Solvitaは問題解決を、戦略選択、プログラム合成、認証付き監視、標的型ハッキングからなる閉ループシステムに再構成し、Planner、Solver、Oracle、Hackerの4つの専門エージェントによって実行される。重要なのは、各エージェントが訓練可能なグラフ構造の知識ネットワークとペアになっていることである。システムが動作するにつれて、パス/フェイル判定、テスト認証品質、Hackerが発見した敵対的脆弱性などの結果シグナルが、これらのネットワーク重みへの強化学習更新として再構成される。これにより、エージェントは過去の成功と失敗に基づいて将来のクエリを動的にルーティングでき、時間とともに転移可能な推論経験を効果的に蓄積できる。CodeContests、APPS、AetherCode、およびライブのCodeforcesラウンドで評価した結果、Solvitaはコード生成エージェントの中で新たな最先端を確立し、既存のマルチエージェントパイプラインを上回り、シングルパスのベースラインの精度をほぼ倍増させた。
現代の画像編集モデルは現実的な結果を生成するが、抽象的な複数ステップの指示(例:「この広告をより菜食主義者向けにする」)には対応が難しい。従来のエージェントベース手法はこのようなタスクを分解するが、手作業によるパイプラインや教師模倣に依存しており、柔軟性が制限され、学習が実際の編集結果から切り離されている。我々は長期にわたる画像編集のための経験的フレームワークを提案する。このフレームワークでは、プランナーが構造化された原子的分解を生成し、オーケストレーターが各ステップを実行するためのツールと領域を選択する。視覚言語判定器が指示への適合性と視覚的品質に基づいた結果ベースの報酬を提供する。オーケストレーターはこれらの報酬を最大化するよう訓練され、成功した軌跡がプランナーの改善に使用される。計画と報酬駆動型実行を密に結合することで、我々のアプローチは単一ステップやルールベースのマルチステップベースラインよりも首尾一貫し信頼性の高い編集を実現する。
大規模視覚言語モデルはGUIエージェントを大幅に進化させ、Web、モバイル、デスクトップインターフェース間での実行可能な対話を可能にした。しかし、これらの進歩は主に寛容な領域許容パラダイムに依存している。このパラダイムでは、同一コンポーネント内の近傍ピクセルが依然として有効とみなされる。精密な幾何学的構築はこの前提を覆す。すなわち、アクションは許容領域ではなく連続的なキャンバス空間上の点に正確に着地しなければならない。幾何プリミティブには本質的な依存関係が存在するため、局所的な座標誤差が連鎖的なトポロジー障害を引き起こし、後続のオブジェクトを歪め、最終的な構築を無効にする可能性がある。我々はこの領域を高精度を要するGUIタスクと特定し、点レベルの精度、幾何を考慮した検証、依存関係によるエラー伝播に対するロバスト性を必要とする。これをベンチマークするために、我々はPAGE Benchを導入する。これは4,906の問題と22万4千以上のプロセス監視型ピクセルレベルGUIアクションを含む。さらに我々はPAGERを提案する。これはトポロジー認識エージェントであり、構築を依存関係に基づく構造化計画とピクセルレベルの実行に分解する。ピクセルに基づく教師付きチューニングは実行可能な行動文法を確立し、精度整合型強化学習は状態条件付き幾何フィードバックを通じてロールアウトによる露出バイアスを緩和する。実験は顕著な意味-実行ギャップを明らかにした。すなわち、汎用マルチモーダルモデルは88%を超える行動タイプ精度を達成できる一方、タスク成功率は6%未満にとどまる。PAGERはこのギャップを埋め、評価された最も強力な汎用ベースラインよりも4.1倍高いタスク成功率を達成し、GUI特化エージェントのステップ成功率を9%未満から62%以上に引き上げ、点精度のGUI制御において新たな最先端を確立した。
現代の3次元ビジュアルラーニングは、メートル単位の3Dアセットからサンプリングされた観測データに依存しているが、既存のスキャン、メッシュ、点群、シミュレーション、再構築データは、スパースで比較可能かつ幾何学的に一貫したパノラマ訓練インターフェースを直接提供しない。密な軌跡は近傍視点を重複させ、ソース固有のレンダリングポリシーは異質なアノテーションを生み出し、スパースなヒューリスティクスは重要な領域を見落としたり、深度の不整合を伴う観測を導入したりする可能性がある。本研究では、3DアセットをスパースなパノラマRGB-D-ポーズデータに変換する手法を検討し、これにより冗長性が低く、完全なシーンカバレッジとトレーサブルな生成過程を保持する。本稿では、COVER(Coverage-Oriented Viewpoint curation with ERP Range-depth warping)を提案する。これは訓練不要なERP視点キュレーターであり、選択された視点から観測された幾何形状を候補ERPプローブに投影し、増分カバレッジをスコアリングし、深度競合をペナルティ化する。有界なプロキシ誤差の下で、その貪欲なカバレッジプロキシは、加法的誤差項まで標準的なカバレッジ型近似挙動を保持する。COVERを用いて、CM-EVS(Coverage-curated Metric ERP View Set)を構築する。これは、Blender indoor、HM3D、ScanNet++にわたる1,275の屋内シーンから36,373のキュレートされたERPフレームからなるパノラマRGB-D-ポーズデータセットであり、TartanGroundおよびOB3Dから再エンコードされた屋外パノラマで補完される。各フレームは全周RGB、メートル単位のレンジ深度、較正済みポーズを提供し、COVERが生成した屋内フレームにはステップごとの生成過程ログが含まれる。屋内シーンあたり中央値でわずか25フレームでありながら、CM-EVSは13の統一された部屋タイプすべてをカバーし、コンパクトなシーンレベルのカバレッジを維持する。実験により、COVERはカバレッジと競合のトレードオフを改善し、CM-EVSは幾何学的に一貫したパノラマ3D学習のためのスパースでコンパクト、かつトレーサブルなRGB-D-ポーズリソースとなることが示された。
視覚言語モデル(VLM)は、グラウンディングやキャプショニングといった2Dタスクに優れる一方、3D理解においては限定的である。その主な制約はテキストのみの教師パラダイムにあり、細粒度の視覚認識を十分に拘束できず、密な幾何情報の復元を妨げる。従来手法では、外部の視覚モデルから幾何情報を蒸留することで誤差が蓄積されるか、効率の悪いピクセル単位のクエリや粗いトークンレベルの出力による直接予測に留まっていた。本論文では、VLMのマルチモーダル能力を保持しつつ単一のVLMをネイティブな密幾何予測器に変換する、簡潔かつ効果的なフレームワークDepthVLMを提案する。LLMバックボーンに軽量な深度ヘッドを付加し、2段階のスケジュールによる統一的な視覚テキスト教師パラダイムの下で訓練することで、DepthVLMは単一の順伝搬で言語出力とともにフル解像度の深度マップを生成する。さらに、VLM互換形式の統一的な屋内・屋外メトリック深度ベンチマークを導入する。実験により、DepthVLMは既存のVLMを大幅に上回る推論効率を示し、主要な純視覚モデルを凌駕し、複雑な3D空間推論を向上させ、真に統一された基盤モデルへと前進することを実証する。すべてのコードとチェックポイントは公開される予定である。
自動マルチエージェントシステム(MAS)は、手動で設計された固定的なオーケストレーションに依存せずにエージェントワークフローをインスタンス化することを目的としている。しかし、既存の自動MASアプローチは部分的にしか適応的でない。すなわち、訓練なしのテスト時探索を実行するか、下流の実行エージェントを凍結したままメタレベルの設計者を最適化するため、凍結された実行者の上限(frozen-executor ceiling)を生み出し、自己設計・自己実行を行うエージェントモデルのエンドツーエンド訓練は未開拓のままである。この問題に対処するため、我々はMetaAgent-Xを導入する。これは、自動MASの設計と実行を共同最適化するエンドツーエンドの強化学習フレームワークである。MetaAgent-Xは、スクリプトベースのMAS生成、実行ロールアウトの収集、ならびに設計者と実行者の両方の軌跡に対するクレジット割り当てを可能にする。安定かつスケーラブルな最適化を支援するため、Executor Designer Hierarchical Rollout(実行設計者階層的ロールアウト)およびStagewise Co-evolution(段階的共進化)を提案し、訓練の安定性を向上させるとともに、設計者と実行者の共進化のダイナミクスを明らかにする。MetaAgent-Xは既存の自動MASベースラインを一貫して上回り、最大21.7%の改善を達成する。包括的なアブレーション研究により、訓練を通じて設計者と実行者の両方が改善されること、また効果的な自動MAS学習は段階的共進化のプロセスに従うことが示される。これらの結果は、自己設計・自己実行エージェントモデルを構築するための実用的なパラダイムとして、エンドツーエンドで学習可能な自動MASを確立するものである。
アクティベーションステアリングは、モデルの活性化を変更してその動作に抽象的な変化を引き起こす、広く用いられているホワイトボックス制御手法である。これは、解釈可能性(例えば、真実性の調査や、活性化を人間が読める説明に変換する)や安全性研究(例えば、脱獄可能性)における標準的なツールにもなっている。しかし、ステアリングによって導かれた動作が、何らかのテキストプロンプトによって実現可能であるかどうかは不明である。本研究では、この問題を全射性問題として定式化する。すなわち、固定されたモデルにおいて、ステアリングされたすべての活性化に対して、モデルの自然な順伝播の下での原像が存在するかどうかを問う。実用的な仮定の下で、アクティベーションステアリングが残差ストリームを、離散プロンプトから到達可能な状態の多様体から押し出すことを証明する。ほとんど確実に、ステアリングによって誘発されたのと同じ内部動作を再現できるプロンプトは存在しない。また、この知見を三つの広く使われている大規模言語モデル(LLM)で実験的に示す。本結果は、ホワイトボックスによるステアリング可能性とブラックボックスによるプロンプティングとの間に形式的な分離を確立する。したがって、アクティベーションステアリングの容易さと成功を、プロンプトに基づく解釈可能性や脆弱性の証拠として解釈することに対して警告を発し、ホワイトボックス介入とブラックボックス介入を明示的に分離する評価プロトコルを提唱する。
複雑な産業資産の監視は、センサーの状態に基づいて発動し、技術者に是正措置を促す、技術者作成の記号ルールに依存している。ボトルネックは検出ではなく対応にある。すなわち、ルールを保守手順に変換するには、長年の実践を通じて獲得される資産固有の知識が必要となる。本稿では、大規模言語モデルがこのルールからアクションへのステップにおける意思決定支援として機能するかを調査し、16の資産タイプにわたる118のルール・アクションペアから抽出された6,690問の専門家検証済み多肢選択問題からなるベンチマークを導入する。我々は、(i) ルールを選言標準形に正規化し、埋め込みベースの誤答選択肢サンプリングを行う記号からMCQAへのパイプライン、(ii) 異なる障害モードを探る5つのバリアント(Pro, Pert, Verbose, Aug, Rationale)、(iii) 29の大規模言語モデルと4つの埋め込みベースラインモデルによるベンチマークを提供する。人間による評価(実務者9名、平均45.0%)は、本ベンチマークが運用経験を超える専門知識を必要とすることを確認している。3つの発見が際立つ。最前線は収束している。上位3つの大規模言語モデルは1マクロポイント以内に収まっており、Bradley-Terry Eloではclaude-opus-4-6が次点モデルより30ポイント高い。しかしながら、Proバリアントは脆さを露呈し、すべてのモデルが誤答選択肢拡大下で相対精度を13~60%低下させる。Augバリアントはパターンマッチングを露呈し、条件反転下でも最前線モデルは49~63%の確率で元の回答を選択する。導入におけるボトルネックは能力ではなくキャリブレーションにある。最前線モデルはテンプレート形式の故障検出を処理できるが、構造的摂動の下では破綻する。
近年の視覚言語行動(VLA)モデルの進展により、大規模なエゴセントリックデータセットへの需要が急増している。しかし、既存のデータセットは典型的に数分間と短いエピソード持続時間に制限されており、複雑なロボットタスクの実行に必要な長期的な時間的依存関係を捉えることができない。このギャップを埋めるため、我々はMobileEgo Anywhereを提案する。これは、汎用モバイルハードウェアを用いて、1時間以上の頑健なエゴセントリック軌跡の収集を容易にするフレームワークである。我々は、現代のスマートフォンに搭載されたユビキタスなセンサースイートを活用し、高忠実度かつ長期にわたるカメラポーズ追跡を実現することで、従来のロボティクスデータ収集に伴う高いハードウェア障壁を効果的に除去する。本論文の貢献は以下の3点である。(1)持続的な状態追跡を伴う、多様で長時間形式のエゴセントリックデータを200時間含む新しいデータセットを公開する。(2)任意のユーザーがエゴセントリックデータを記録可能なモバイルアプリケーションをオープンソース化する。(3)生のモバイルキャプチャを、VLAモデルおよび基盤モデル研究向けの標準化された訓練可能な形式に変換する包括的な処理パイプラインを提供する。データ収集プロセスを民主化することで、本研究成果は、多様なグローバル環境下における長期的データの大規模収集を可能にし、汎化可能なロボットポリシーの開発を加速する。
少数ステップでの画像生成は急速に進歩しており、一致性モデルや平均流ベースの手法によりサンプリングステップ数が大幅に削減されている。これらの手法は推論コストが低い一方で、訓練の不安定性やスケーラビリティの制限に悩まされることが多い。Sphere Encoderは、わずか数ステップで高品質な画像を生成する最近の代替手法であるが、推論中にピクセル空間と潜在空間の間の繰り返し遷移を必要とし、単一アーキテクチャ内で再構成と生成を共同最適化する。この設計は計算効率の低下と、再構成と生成の間の目的の競合を引き起こす。これらの制限に対処するため、我々はフレームワークを、固定された事前学習済み画像エンコーダと、球面潜在空間内で完全に訓練される別個の潜在デノイジングモデルに分離する。本手法は訓練および推論中の繰り返しのピクセル空間操作を排除し、効率を向上させるとともに、再構成と生成が独立して特化することを可能にする。Animal-Faces、Oxford-Flowers、ImageNet-1Kデータセットにおいて、本手法は生成品質と推論速度の両方でSphere Encoderを大幅に上回り、強力な少数ステップおよび多ステップのベースラインに対して競争力のある結果を達成する。
大規模な事前学習済み視覚言語モデル(例:CLIP)は、多様なタスクにおいて顕著なゼロショット性能を示す。しかし、下流性能向上のためにこれらのモデルをファインチューニングすると、分布シフトに対するロバスト性が低下することが多い。近年の研究ではこのトレードオフの緩和を試みているが、多くの場合、計算コストの高いテキストガイダンスに依存している。本稿では、ロバストなファインチューニングのための新規手法であるSAE-FTを提案する。これはモデルの視覚表現のみに作用する。SAE-FTは、事前学習済みモデルで学習されたスパースオートエンコーダにより特定された意味的に意味のある特徴の追加と削除を罰則化することで、これらの表現への変化を正則化する。この制約により破滅的忘却が防止され、ファインチューニングプロセスが解釈可能となり、意味的変化の直接的な分析が可能になる。SAE-FTは機構的に透明であり、計算効率も良く、ImageNetおよびその関連する分布シフトベンチマークにおいて、最先端の性能と同等またはそれを上回る。コードはhttps://github.com/Fabian-Mor/sae-ftで公開されている。
アバター再構築は伝統的に、1被験者あたり数時間の計算を要する最適化や、スケーラビリティを制限する高コストな前処理に依存してきた。本稿では、数ショットの非ポーズ付きポートレート画像から、高品質でアニメーション可能な3Dガウシアンヘッドアバターを数秒で再構築する、汎用的なフィードフォワードフレームワーク「FFAvatar」を提案する。FFAvatarは、マルチビュークエリフォーマー(Multi-View Query-Former)を通じて、複数のソース画像からの情報を統合された正準ガウシアン表現に融合する。この表現は、ピクセルからエンドツーエンドで直接予測されるFLAMEパラメータによってアニメーション化され、オフラインでのFLAME抽出のオーバーヘッドを排除する。さらに、広範な汎化と高忠実度再構築の両方を達成する3段階のトレーニングカリキュラムを提案する。(i) 100万以上のアイデンティティを含む大規模な単眼動画データでのスケーラブルな事前学習により、強力な汎用的事前知識を獲得。(ii) 少数だが高品質な360度キャプチャデータセットでのマルチビューファインチューニングにより、幾何学的忠実度と極端な視点への対応力を向上。(iii) オプションとして、最大忠実度を実現するために、特定のアイデンティティに500最適化ステップ以内で適応するパーソナライゼーション。広範な実験により、FFAvatarがアイデンティティ保存、幾何学的整合性、アニメーション忠実度において新たな基準を確立することを実証する。NeRSembleベンチマークでは、最先端手法LAMをPSNRで5.5上回る顕著な改善を達成した。さらに、FFAvatarはリアルタイムデプロイを可能にし、パーソナライゼーションなしで2秒、ありで10秒でアバターを再構築し、単一のNVIDIA A100 GPU上で49 FPSのアニメーションをサポートする。
大規模言語モデルに基づくエージェントは、未知の環境において早期の活用(環境固有の情報を十分に獲得する前に事前知識に基づいて行動する傾向)により、しばしば失敗する。我々は、適応型エージェントを構築する上で、自律的な探索が重要でありながら未解明の能力であると特定する。この能力を形式化・定量化するため、検証可能な指標である探索チェックポイントカバレッジを導入する。これは、エージェントが主要な状態、物体、アフォーダンスをどの程度広く発見するかを測定するものである。我々の体系的な評価により、標準的なタスク指向強化学習で訓練されたエージェントは、下流タスクの性能を妨げる狭く反復的な行動を一貫して示すことが明らかになった。この限界に対処するため、タスク実行ロールアウトと探索ロールアウトを交互に配置し、各ロールアウトを対応する検証可能な報酬で最適化する訓練戦略を開発する。この訓練戦略に基づき、情報収集とタスク実行を分離する探索→行動パラダイムを提案する。エージェントはまず相互作用予算を利用してグラウンディングされた環境知識を獲得し、その後それをタスク解決に活用する。結果は、体系的な探索を学習することが、汎用的で実環境対応可能なエージェントを構築する上で不可欠であることを示している。
近年、Marbleに代表される生成的シーン合成に基づく3D世界モデリングシステムは、一貫性のある探索可能な3D環境を生成できる。しかし、その出力は通常、編集可能性や物理的相互作用が限られた静的なモノリシックアセットであり、生成された世界を積極的に修正・操作する必要がある没入型コンテンツ制作や身体性シミュレーションでの利用が制限される。この課題に対処するため、本稿では静的に生成された3D世界を編集可能かつ操作可能なシーンに変換するフレームワークWorldActを提案する。WorldActはマルチモーダルエージェントを用いて、シーンの分解を誘導し、操作可能なオブジェクトを特定し、相互作用のための幾何学的に整合したオブジェクトレベルのメッシュを再構築し、3Dインペインティングによって残留背景を復元する。得られたシーンは、オブジェクトレベルの編集、衝突を考慮した操作、および身体性タスク実行を、シーン全体の一貫性を維持しながら可能にする。実験により、WorldActは元の生成シーンよりも豊かな相互作用シナリオを実現し、編集可能かつインタラクティブな3D世界モデルへの実用的な道筋を示すことが明らかになった。
検証可能報酬を用いた強化学習(RLVR)は、大規模言語モデルの推論能力を向上させるための効果的な手法として注目されている。しかし、RLVRの学習は疎な二値報酬と弱いクレジット割り当てによって妨げられることが多く、その結果、最適化信号が曖昧になり、失敗した軌跡に埋め込まれた有用な情報が十分に活用されない。この課題に対処するため、我々は修正指向方策最適化(CIPO)を提案する。これは、RLVRの単純かつ効果的な拡張であり、外部信号に依存することなく、オン・ポリシーの失敗軌跡を修正指向の教師信号に変換する。モデル自身の失敗試行から得られた修正サンプルを、標準的なRLVR目的関数とともに共同最適化することで、CIPOは学習効果を向上させると同時に、モデルが自身の誤りを修正する能力を明示的に強化する。数学的推論とコード生成を網羅する11のベンチマークにわたる大規模な実験により、CIPOが推論性能と修正性能の両方において、強力なベースラインを一貫して有意に上回ることが示された。さらに、CIPOはより強力なpass@Kの向上をもたらし、これは既存の正解に対する確率質量の単なる再配分ではなく、モデルの内在的な推論能力を改善していることを示している。
再帰的自己改善に向けて、我々は標準的なトランスフォーマーを超える基盤モデルをLLMエージェントが自律的に設計することを探求する。本稿では、高水準のアーキテクチャ探索を行うAIRA-Composeと、低水準のメカニズム実装を行うAIRA-Designという二重フレームワークアプローチを導入する。AIRA-Composeは11のエージェントを用いて、24時間の予算制約のもとで基本的な計算プリミティブを探索する。エージェントは百万パラメータ規模の候補を評価し、上位の設計を350M、1B、3Bパラメータの規模に外挿する。これにより、トランスフォーマーベースのAIRAformer群と、トランスフォーマー・MambaハイブリッドのAIRAhybrid群という2つのファミリーにわたる14のアーキテクチャが得られた。これらは1B規模で事前学習され、Llama 3.2およびComposer発見のベースラインを一貫して上回る。下流タスクでは、AIRAformer-DとAIRAhybrid-DがLlama 3.2に対してそれぞれ2.4%および3.8%の精度向上を達成した。さらにAIRA-Composeは、極めて効率的なスケーリングフロンティアを持つモデルを発見する。AIRAformer-CはLlama 3.2およびComposer最良トランスフォーマーよりもそれぞれ54%および71%速くスケーリングし、AIRAhybrid-CはNemotron-2およびComposer最良ハイブリッドよりもそれぞれ23%および37%上回るスケーリングを示す。一方、AIRA-Designは20のエージェントに、長距離依存関係を扱う新規アテンション機構と高性能なトレーニングスクリプトの作成をタスクとして課す。Long Range Arenaベンチマークでは、エージェント設計のアーキテクチャが文書マッチングとテキスト分類において人間の最高水準から2.3%および2.6%以内に到達する。Autoresearchベンチマークでは、Greedy Opus 4.5が固定時間予算のもとで検証ビット毎バイト0.968を達成し、公表された最小値を上回った。これらのフレームワークは、AIエージェントが手動設計のベースラインに匹敵またはそれを上回るアーキテクチャとアルゴリズム的最適化を自律的に発見できることを示している。これは次世代基盤モデルを発見するための強力なパラダイムを確立し、再帰的自己改善への明確な一歩となる。
建物内をナビゲートする場合でも、ロボットを操作する場合でも、ゲームをプレイする場合でも、環境内で効果的に行動するエージェントは、まずその環境がどのように機能するかについての内部モデルを学習する必要がある。部分観測マルコフ決定過程(POMDP)は、そのような内部世界モデルのための柔軟なモデリングクラスを提供するが、観測-行動系列のみから学習することは困難であり、通常は広範な環境相互作用を必要とする。我々は、言語モデルの事前知識を活用することで、コストのかかる相互作用を削減できるかどうかを問い、Pinductor(POMDP-inductor)を導入する:LLMが少数の観測-行動系列から候補となるPOMDPモデルを提案し、信念に基づく尤度スコアを最適化するために反復的に洗練する。厳密に少ない情報を使用しているにもかかわらず、Pinductorは隠れ状態への特権的なアクセスを仮定するLLMベースのPOMDP学習手法と同等の性能とサンプル効率を達成し、表形式のPOMDPベースラインのサンプル効率を大幅に上回る。さらなる結果は、性能がLLMの能力に応じてスケールし、環境に関する意味情報が withheld されると優雅に劣化することを示している。これらの結果は、部分観測下でのサンプル効率的な世界モデル学習のための実用的なツールとして言語モデルの事前知識を位置づけ、実世界環境における汎用エージェントへの一歩となる。コードはhttps://github.com/atomresearch/pinductorで公開されている。
Sparse Mixture-of-Experts(スパース混合専門家:MoE)層は、少数の専門家(エキスパート)を通じてトークンをルーティングし、これらの層を学習不要で圧縮することで、再学習を必要とせずに推論コストを削減する。しかし、このファミリーに属する既存の圧縮手法すべてに対して、微妙な障害が立ちはだかる。すなわち、三つの専門家はそれぞれ互いにペアワイズで両立可能でありながら、統合時に既約なサイクルを形成することがあるため、ペアワイズ信号に基づいて専門家をランク付けする任意のスコアは、どの三つ組が統合可能かを構造的に認識できない。本論文では、この障害が精密な数学的対象、すなわち専門家を頂点とし、辺がKLマージ障壁を、面が三つ組障壁を担う2次元複体上の単体ラプラシアンの調和核であることを示す。辺障壁信号をホッジ分解することで、この核を正確に分離できる。我々はこの診断手法を選択目的関数へと転換する。すなわち、HodgeCoverは調和臨界辺と三つ組臨界三角形を貪欲に被覆し、そのハイブリッド変種はこれを既存の重み枝刈り手法と組み合わせて生存ユニットに適用する。三つのオープンウェイトのスパースMoEバックボーンに対し、積極的な専門家削減の下で、HodgeCoverは専門家削減軸では最先端の学習不要ベースラインと同等の性能を示し、ハイブリッド軸の積極的圧縮フロンティアではリードし、さらに四つのホッジ成分全体にわたって保持質量を独自にバランスさせる。これらの結果は、学習されたMoE構造の調和核を可視化することで、最も重要な領域において圧縮手法の優劣が変わることを示している。
クロスエンボディメント動画生成は、人間からロボット、ロボット間など、異なるヒューマノイド身体性間での動作転移を目的とし、身体性知能のためのスケーラブルなデータ生成を可能にする。この設定における主要な課題は、動作ダイナミクスが身体性間で部分的に転移可能である一方、外見や形態は身体性に固有である点にある。既存のアプローチではこれらの因子がしばしば絡み合い、多くの手法は対象の身体性ごとにペアデータを必要とするため、新たなロボットへのスケーラビリティが制限される。本稿では、転移可能な動作学習と身体性固有の適応を分解するフレームワーク、OmniHumanoidを提案する。本手法は、複数の身体性にわたる動作整合済みペア動画から共有動作転移モデルを学習しつつ、軽量な身体性固有アダプタを通じて非ペア動画のみを用いて新たな身体性に適応する。さらに、動作転移と身体性適応の間の干渉を低減するため、動作条件付けと身体性固有の変調を分離するブランチ分離型アテンション設計を導入する。加えて、多様なヒューマノイドアセット、シーン、視点でレンダリングされた動作整合済みペア動画からなる合成クロスエンボディメントデータセットを構築する。合成および実世界のベンチマークでの実験により、OmniHumanoidは高い動作忠実度と身体性一貫性を達成し、共有動作モデルを再学習することなく未知のヒューマノイド身体性へのスケーラブルな適応を可能にすることを示す。
リモートセンシング変化検出(RSCD)は、同一地理領域を撮影した2枚の画像間の変化を特定することを目的とする。実際には、変化マスクは純粋な局所的な外観の差異よりも、領域レベルのアノテーション規則に従うことが多く、そのため文脈依存的であり、時に曖昧となる。最先端の手法のほとんどはピクセル単位の識別的分類を利用しており、入力ごとに単一の予測を生成するため、変化領域を一貫した全体として明示的にモデル化できない。これに対する自然な代替案として生成的定式化があり、これは妥当なマスクの分布をモデル化し、サンプリングによって曖昧さを捉え、全体的な一貫性を促進することを可能にする。しかしながら、既存の生成的RSCDアプローチは、ピクセル空間での生成に伴う高い計算コストと、その条件付け機構の複雑さのため、強力な識別的ベースラインに後れを取る傾向がある。従来の識別的手法および生成的手法の限界に対処するため、我々はChangeFlowを提案する。これは、整流フローを介して潜在空間における変化マスクの合成として変化検出を再定式化する生成的フレームワークである。ChangeFlowは、構造化されつつも軽量な条件付け信号によって導かれ、その確率的設計はサンプリングに基づく予測アンサンブルを自然にサポートする。すなわち、複数の予測変化マスクを集約することでロバスト性が向上し、サンプルの一致度は曖昧な領域を強調する実用的な信頼度推定を提供する。4つのベンチマークにおいて、ChangeFlowは平均F1スコア80.4%を達成し、従来の最良手法を平均1.3ポイント上回りながら、近年の強力なベースラインと同等の推論速度を維持している。プロジェクトページ: https://blaz-r.github.io/changeflow_cd
LLMエージェントはますます、ツールをディスパッチし、リソースを割り当て、専門化されたコンポーネント間でメッセージをルーティングする実行ハーネス内で動作するようになっている。しかし、ハーネスは、未承認のリソースにアクセスしたり、コンテキストを誤ったエージェントに漏洩したりする軌跡を通じて、正しく無害な回答を返す可能性がある。出力レベルの評価ではこうした障害を捉えられないが、多くの安全ベンチマークは最終出力または終端状態のみを評価しており、多くの違反が終了時ではなく軌跡の中間で発生しているにもかかわらずである。中心的な問いは、ハーネスがユーザーの意図、許可境界、および情報フローの制約を実行全体を通じて尊重するかどうかである。このギャップに対処するため、我々はHarnessAuditを提案する。これは、境界準拠、実行忠実度、システム安定性にわたり完全な実行軌跡を監査するフレームワークであり、特にこれらのリスクが最も顕著なマルチエージェントハーネスに焦点を当てている。さらに、8つの実世界ドメインにわたる210のタスクからなるベンチマークHarnessAudit-Benchを導入する。これは、シングルエージェントおよびマルチエージェントの両構成で具体化され、安全性制約が組み込まれている。最先端モデルおよび3つのマルチエージェントフレームワークにわたる10のハーネス構成を評価した結果、以下のことが明らかになった。(i) タスク完了は安全な実行と一致しておらず、軌跡の長さに伴い違反が蓄積する。(ii) 安全性リスクはドメイン、タスクタイプ、エージェントの役割によって異なる。(iii) ほとんどの違反はリソースアクセスとエージェント間情報転送に集中する。(iv) マルチエージェント連携は安全性リスクの表面を拡大する一方、ハーネスの設計が安全な展開の上限を定める。
我々はマルチモーダル物理評価パイプラインをエンドツーエンドで監査し、分野における視覚言語推論の測定方法を歪めている3つの未検出の構築慣行(学習評価汚染、翻訳ドリフト、MCQ飽和)を文書化する。(1) 公開学習プール(UGPhysics-Train、SciInstruct、MMK12)は、6つの公開物理評価すべてにおいて単一段階5グラムJaccard監査でゼロヒットを通過する。三段階監査(Jaccard→mxbai-embed-large cosine→Haiku-4.5 LLM判定)では、SciInstruct単体で134件のニアデュプリケートと4,846件のパラフレーズ候補が浮上する。(2) 59組のエストニア語-英語対訳オリンピック問題において、Sonnet 4.5の17パーセンテージポイント差(30.5%対13.6%、符号検定p=0.011、McNemar検定p=0.021、ペアブートストラップ95% CI [+5.1, +28.9] pp)。(3) 同一のSonnet重みにおいて、MCQ(PhyXで79.7%)と自由回答形式のオリンピック評価(PhysOlym-Aで33.4%)の間で46パーセンテージポイントの形式・新規性勾配。我々はこれらのギャップに対処するため、4つの成果物を公開する:PhysCorp-A(6,432レコードの三段階監査済みマルチモーダルコーパス)、PhysR1Corp(2,268レコードの閉形式強化学習プール)、PhysOlym-A(500問題、99.8%が新規ソースの保持オリンピック評価、ネイティブ難易度ラベルとEN/ET二言語サブセット付き)、及びPhysics-R1(Qwen3-VL-8B-Thinkingからコールドスタートした参照用GSPO+DAPOレシピ)。3シードにわたり、Physics-R1は監査済みコーパスを8BベースからPhysOlym-A緩和評価で+18.3 pp(8.0→26.3±1.7、Sonnet 4.5より7.1 pp低い)、PhysReasonで+15.7 pp(23.9→39.6±6.4、Qwen3-VL-32BおよびGemini 2.5 Proを上回る)、OlympiadBench-Physicsで+6.9 pp(46.2±1.5)、PhyX MCQで+4.1 pp(77.8±0.3)向上させる。
マルチヘッド潜在注意(MLA)は、DeepSeek-V2/V3で採用されている注意機構であり、キーと値を低ランク潜在表現に統合圧縮し、H100のルーフラインにほぼ完全に適合する。しかし、その学習済み重みが公開する復号パスは、吸収型MQA形式という1系統のみであり、効率的な推論をH100クラスの計算帯域比に依存させ、ヘッド軸に沿ったテンソル並列化を無効化し、輸出規制対象のH20などの汎用推論GPUではマルチトークン予測(MTP)による利得が得られない。本稿では、MLAの最小限の修正であるグループクエリ潜在注意(GQLA)を提案する。GQLAの学習済み重みは、同一パラメータ上で代数的に等価な2つの復号パス、すなわちMLAと同一のMQA吸収パスと、グループごとにキャッシュを拡張したGQAパスを公開する。実行時には、対象ハードウェアに適合するパスを選択するため、再学習もカスタムカーネルも不要であり、単一のGQLA重みセットでH100(MQA吸収、s_q=1)とH20(GQA+MTP、s_q=2)の両方のルーフラインに適合し、かつGQAパス上で最大8方向の冗長性ゼロテンソル並列化をサポートする。ゼロからの事前学習を避けるため、TransMLAをTransGQLAに拡張し、事前学習済みGQAチェックポイントをGQLAモデルに変換する。LLaMA-3-8Bにおいて、この変換によりMQA吸収パス上のトークンあたりKVキャッシュがGQAベースラインの28.125%に圧縮され、かつグループパス上のGQAレベルのトラフィックが構造的に維持される。
標準的なアンラーニング評価では、展開されるすべての言語モデルがまず量子化されるにもかかわらず、フル精度、学習直後の行動抑制を測定している。近年の研究により、4ビット学習後量子化が機械学習のアンラーニングを逆転させ得ることが示されたが、本稿ではこれがチューニングのアーティファクトではなく、体系的な二重の失敗であることを示す。すなわち、意味のある忘却を達成する勾配ベース手法は圧縮下でそれを失う一方で、量子化に耐える手法はモデルをほとんど変化させない。両方の失敗は同じ根本原因に由来する。すなわち、すべてのベースラインにおいて、パラメータ単位の更新量はNF4量子化ビン幅の47〜828倍未満であり、数十億のパラメータに分散された更新は量子化ビンの境界を超えられない。この結果を我々は疎性-永続性トレードオフとして定式化する。本稿では、因果回路帰属により最小の忘却集合部分グラフを特定し、対角Fisher保持境界を伴う回路制限ヌル空間射影、および量子化生存を構造的に保証するパラメータ単位の大きさ下限を組み合わせることで、両方のモードを解決するMANSU(Mechanistic-Aligned Null-Space Unlearning、メカニズム整合ヌル空間アンラーニング)を提案する。さらに、既存の指標では区別できない、構造的消去と行動抑制を区別するメカニズム検証指標である回路帰属乖離度(CAD)を導入する。複数のモデルファミリーとハザードベンチマークにわたり、MANSUは4つの特性すべてをそれぞれに余裕を持って同時に満たす最初の手法であり(意味のある忘却、保持保存、非正のPTQギャップ、構造的消去)、一方、勾配ベースのベースラインは圧縮下で最大+0.05の精度を回復する。
従来の制御可能生成手法は、通常、ファインチューニング、補助ネットワーク、またはテスト時探索に依存している。本稿では、フローマッチングが異なる制御インターフェース、すなわち例を通じた適応を可能にすることを示す。決定論的補間において、速度場は条件付き終点平均のみによって決定される。この平均をシフトすると、フロー自体が変化する。このことから、制御可能生成のための単純な原理が得られる。すなわち、事前学習モデルが追従する参照セットを変更することで、そのモデルを誘導する。本稿では、このアイデアを2つの形で具体化する。参照平均ガイダンスは学習不要である。参照バンクから閉形式の終点平均補正を計算し、凍結されたFLUX.2-klein(4B)モデルに適用することで、プロンプト、シード、重みを固定したまま、色、同一性、スタイル、構造の制御を可能にする。半パラメトリックガイダンスは、明示的な平均アンカーと学習された残差リファイナーを通じて同じアイデアを具現化し、AFHQv2において非条件DiT-B/4品質に匹敵しつつ、推論時に参照セットの交換を可能にする。これらの結果は、より広範な方向性を示している。すなわち、パラメータ更新ではなくデータを通じて適応する生成モデルである。
ラスタ化された平面図画像から構造化されたベクターグラフィックス表現を再構築することは、自動理解やCADワークフローなどの平面図を扱う計算タスクにおいて、通常、重要な前提条件となる。しかし、既存の手法では、多数の部屋と多様なポリゴン頂点数を持つ大規模な屋内空間を描いた複雑な平面図が伝える構造と意味を忠実に生成することに困難を伴う。そこで本稿では、Raster2Seqを提案する。これは、平面図の再構築を系列変換タスクとして捉え、部屋、窓、ドアなどの平面図要素を、形状と意味を共同で符号化するラベル付きポリゴン系列として表現する。本手法では、自己回帰型デコーダを導入し、画像特徴と学習可能なアンカーからのガイダンスを用いて、既に生成されたコーナーと画像特徴に基づき次のコーナーを予測することを学習する。これらのアンカーは画像空間内の空間座標を表すため、注意機構を情報の多い画像領域に効果的に向けることを可能にする。自己回帰機構を採用することにより、出力形式に柔軟性が生まれ、多数の部屋や多様なポリゴン構造を持つ複雑な平面図を効率的に処理できる。本手法は、Structure3D、CubiCasa5K、Raster2Graphといった標準ベンチマークにおいて最先端の性能を達成する一方、多様な部屋構造と複雑な幾何学的変動を含むWAFFLEのようなより困難なデータセットに対しても強い汎化性能を示す。
Segment Anything Model 2(SAM2)は、ビデオクリップにおけるプロンプト可能なセグメンテーションに対して強い汎化能力を示すが、音声モダリティとの統合は未だ十分に研究されていない。既存の手法は、ファウンデーションモデルを介して音声を視覚プロンプト(例:バウンディングボックス)に変換するか、画像エンコーダにアダプタを挿入して音声-視覚融合を行う。しかし、これらのアプローチは、プロンプト精度の制限や推論オーバーヘッドの増加により、ヒューマン・イン・ザ・ループのシナリオでは不十分である。特に、アダプタベースの手法は、ネットワークを伝搬するにつれて信号が徐々に減衰する音声プロンプト希釈の問題にしばしば悩まされる。本研究では、SAM2のプロンプト可能なセグメンテーション能力を概ね維持しつつ、音声を統合するAuralSAM2を提案する。その中核モジュールであるAuralFuserは、音声特徴と視覚特徴を融合し、疎なプロンプトと密なプロンプトを生成する。音声に導かれ、SAM2の特徴ピラミッド上に構築されたこれらのプロンプトは、聴覚的手がかりを視覚層全体に伝播させ、クロスモーダルな影響を強化する。さらにモダリティを整合させるために、支配的な視覚特徴における聴覚的関連性を強調する音声誘導型コントラスト損失を導入する。本手法は、公開ベンチマークにおいて、プロンプト可能なセグメンテーションの対話的効率に最小限の影響しか与えずに、顕著な精度向上を達成する。コードはhttps://github.com/yyliu01/AuralSAM2で公開している。
我々は、最終回答のみではなく機械検証可能な証明を通じてLLMの推論を評価するためのベンチマークスイートであるProofGridを紹介する。ProofGridは、証明作成、証明検証、証明マスキング、証明ギャップ埋めにわたる15のタスクを含む。タスクは最小限の形式的記法、特に短いプロンプトに収まり、精密で監査可能な検証をサポートするコンパクトな自然演繹言語であるNDLで表現される。これにより、人間やLLMによる判断ではなく、機械的で再現可能かつきめ細かな評価が実現される。ProofGridは、基礎的な推論テストから現在のモデルでは解けない構造的に豊かなチャレンジタスクまで、校正された難易度のスペクトラムをカバーし、ドメイン知識、ソルバー委任、長文脈アーティファクトへの依存を最小限に抑えている。また、推論ベンチマークの比較フレームワークを開発し、それを用いてProofGridを表現、検証保証、推論深度の観点から既存研究との関連で位置づける。 方法論的には、軽微な表面的な逸脱を許容しつつ最初の実質的な推論失敗を特定し、測定分解能を向上させ、証明計画と低レベルの実行ノイズを分離する、計装化された証明検証パイプラインを導入する。このパイプラインを用いて、幅広いオープンおよびプロプライエタリモデルを評価する。結果は急速な進歩を示すが、依然として大きな限界がある:フロンティアモデルはいくつかの基礎的タスクでは良好に機能するが、困難なタスク、特に大域的組合せ推論や低レベルの証明合成を必要とするタスクは、解決にはほど遠い。また、認識的不安定性—モデルが欠陥のある証明を生成する一方で、それらの局所的な推論を単独では正しく拒否する現象—を特定し、これを認識的安定性指標として形式化する。最後に、精度を2パラメータ項目応答理論分析、ライトマップ、およびフィッシャー情報量に基づく正規化タスク弁別尺度で補完する。
LLMベースのエージェントがユーザーに代わってウェブを閲覧する機会が増えるにつれ、自然な疑問が生じる:ウェブサイトは受動的にどの基盤モデルがエージェントを駆動しているかを識別できるだろうか?もし可能であれば、既知のモデル脆弱性に合わせた標的型攻撃を可能にし、重大なセキュリティリスクを意味する。我々は、14の最先端LLMと、情報検索およびショッピングタスクにわたる4つのウェブ環境において、受動的なJavaScriptトラッカーを介して捕捉されたエージェントの行動と相互作用のタイミングが、最大96%のF1値で基盤モデルを識別するのに十分であることを示す。エージェントの行動に基づいて訓練された分類器がモデルサイズやファミリーを超えて汎化することを実証し、この攻撃面を形式化する。さらに、少数の相互作用トレースから強力な分類器を訓練できること、エピソード内の早期にエージェントの同一性を推論できることを示す。行動間にランダムなタイミング遅延を注入すると分類器の性能は大幅に低下するが、堅牢な防御とはならない:遅延トレースで再訓練された分類器は性能をほぼ回復する。我々は、我々のハーネスとラベル付きエージェントトレースのコーパスをhttps://github.com/KabakaWilliam/known_actions{here}で公開する。
多言語情報検索は、ユーザーが複数言語混在コーパスに対してクエリを発行する実世界の検索環境においてますます重要性を増している。既存の評価は主に言語非依存の意味的関連性を報奨し、言語に関わらず関連パッセージを同等に扱っている。しかし、検索の有用性は取得されたパッセージの言語にも依存する。ユーザーはクエリ言語で読んで検証できる結果を好む可能性があり、クエリとパッセージの言語不一致は、検索拡張生成(RAG)システムにおける下流のグラウンディングや回答検証を複雑化しうる。この言語認識の次元を評価するために、我々はMLAIREを導入する。これは、言語横断的な意味検索とクエリ言語選好を分離する多言語言語認識情報検索評価プロトコルである。MLAIREは、言語間でパラレルなパッセージを含む制御されたプールを構築し、同等の翻訳が利用可能な場合に意味検索精度とクエリ言語選好の測定を可能にする。我々は、言語選好率(LPR)やLang-nDCGを含む言語認識メトリクスを、意味的およびクエリ言語選好の失敗を分離する4方向分解とともに提案する。31の密、疎、および後期相互作用型検索器を評価した結果、標準メトリクスは異なる振る舞いを隠蔽することを示す。すなわち、意味的に強い検索器は非クエリ言語で正しい内容を返す可能性がある一方、クエリ言語選好が強い検索器は意味的関連性の低いパッセージを取得する可能性がある。
地理空間基盤モデル(GFM)は、災害対応、土地被覆マッピング、食料安全保障モニタリング、その他の重要な地球観測タスクにおいて汎用的なバックボーンとして提案されてきた。しかし、これらのモデルに関する既発表の研究では、査読者や利用者が特定のタスクにどのモデルが適合するかを判断するのに十分な情報が提供されていない。我々は、地理空間基盤モデルにおける現在の最新技術が何であるかを誰も知らないと主張する。手法自体は有用かもしれないが、GFMに関する文献では、評価、訓練・試験プロトコル、公開済み重み、事前訓練の制御が十分に標準化されておらず、モデル同士の比較や順位付けができない状態にある。152本の論文を対象とした監査では、同一モデル・ベンチマーク・プロトコルにおいて、少なくとも10ポイント以上の矛盾が46件確認された。事前訓練データが抽出可能な126本の論文のうち94本は、他の論文が使用していない設定を用いており、GFM論文の39%はモデル重みを公開していない。このようなコミュニティ標準の欠如は解決可能である。我々は6つの具体的な期待事項を提案する。すなわち、名称付きライセンスによる重み公開、共有コア評価、コピー済みと再実行済みのベースライン注釈、分散報告、共通評価ハーネスの共有、そしてデータ・アーキテクチャ・アルゴリズムの統制である。これらのギャップは調整の失敗に起因するものであり、個々の研究室の過失ではない。本論文の著者らも、GFMコミュニティの他の多くの研究者と同様に、これらの問題に加担してきた。我々は単にコミュニティを批判するのではなく、GFMの革新方法について共通理解を構築するための具体的なステップを提供することを目指す。