翻訳付きの日次キュレーションされたAI研究論文
高品質な公開テキストが枯渇に近づく「データの壁」現象により、事前学習はより多くのトークンからより優れたトークンへと重点を移しつつある。しかし、既存の手法は、学習動態を無視するヒューリスティックな静的フィルタに依存するか、あるいは生の勾配に基づく動的だが最適化手法に依存しない基準を使用している。本論文では、最適化手法が誘導する更新空間において効用を定義する動的データ選択フレームワーク「OPUS(Optimizer-induced Projected Utility Selection)」を提案する。OPUSは、現代的な最適化手法によって形成された候補データの実効更新を、安定したin-distributionプロキシから導出された目標方向へ射影することでスコアリングを行う。スケーラビリティを確保するため、計算効率化にGhost技法とCountSketchを、データ多様性確保にボルツマンサンプリングを採用し、わずか4.7%の追加計算オーバーヘッドで済む。OPUSは多様なコーパス、品質階層、最適化手法、モデル規模において顕著な成果を達成した。FineWebおよびFineWeb-Eduで30Bトークンを用いたGPT-2 Large/XLの事前学習では、産業レベルのベースラインを上回り、200Bトークンを用いた完全学習をも凌駕する性能を示した。さらに、産業レベルの静的フィルタと組み合わせることで、データ品質が低い場合でも事前学習効率をさらに向上させた。加えて、SciencePediaを用いたQwen3-8B-Baseの継続事前学習では、3Bトークンでの完全学習と比較して、わずか0.5Bトークンで優れた性能を達成し、専門領域における著しいデータ効率の向上を実証した。
自律型GUIエージェントは、インターフェースを認識しアクションを実行することで環境と相互作用する。仮想サンドボックスとして、GUI Worldモデルはアクション条件付き予測を可能にすることで、エージェントに人間のような先見性を付与する。しかし、既存のテキストおよびピクセルベースの手法では、高い視覚的忠実度と細粒度の構造制御性を同時に達成することが困難である。この課題解決に向け、我々はレンダリング可能なコード生成による次視覚状態のシミュレーションを実現する視覚言語コーダーCode2Worldを提案する。具体的には、データ不足問題に対処するため、GUI軌跡を高忠実なHTMLに変換し、視覚的フィードバック修正機構を通じて合成コードを精緻化することで、8万以上の高品質な画面-アクションペアからなるコーパスAndroidCodeを構築した。既存のVLMをコード予測に適応させるため、まず形式レイアウト追従のコールドスタートとしてSFTを実施し、さらに視覚的意味的忠実性とアクション一貫性を強化するレンダリング結果報酬信号を用いたRender-Aware強化学習を適用する。大規模実験により、Code2World-8Bが競合するGPT-5やGemini-3-Pro-Imageに匹敵する最高性能の次UI予測を達成することを実証した。特筆すべきは、Code2Worldが下流ナビゲーション成功率を柔軟な手法で大幅に向上させ、AndroidWorldナビゲーションにおいてGemini-2.5-Flashを+9.5%向上させた点である。コードはhttps://github.com/AMAP-ML/Code2Worldで公開されている。
GUIエージェントはデジタル環境における操作自動化の強力なパラダイムとして登場しましたが、広範な汎用性と一貫して強力なタスク性能の両立は依然として課題です。本報告では、堅牢な実世界アプリケーション向けに設計された統一的なエンドツーエンドGUIエージェントであるUI-Venus-1.5を提案します。提案するモデルファミリーは、様々な下流アプリケーションシナリオに対応するため、2つの高密度バリアント(2Bおよび8B)と1つの混合専門家バリアント(30B-A3B)で構成されています。前バージョンと比較して、UI-Venus-1.5は以下の3つの主要な技術的進歩を導入しています:(1) 30以上のデータセットにわたる100億トークンを活用した包括的な中間訓練段階により、基礎的なGUIセマンティクスを確立;(2) 完全軌道展開によるオンライン強化学習により、大規模環境における長期的で動的なナビゲーションと訓練目標を整合;(3) モデルマージングにより構築された単一の統一GUIエージェント。これは、ドメイン特化モデル(グラウンディング、Web、モバイル)を一つの統合されたチェックポイントに統合します。大規模な評価により、UI-Venus-1.5がScreenSpot-Pro(69.6%)、VenusBench-GD(75.0%)、AndroidWorld(77.6%)などのベンチマークで新たなstate-of-the-art性能を確立し、従来の強力なベースラインを大幅に上回ることが実証されました。さらに、UI-Venus-1.5は様々な中国モバイルアプリにわたる堅牢なナビゲーション能力を示し、実世界シナリオでユーザー指示を効果的に実行します。コード:https://github.com/inclusionAI/UI-Venus; モデル:https://huggingface.co/collections/inclusionAI/ui-venus
人間の問題解決は、単一のマインドセット(すなわち、異なる認知処理モード)の繰り返しでは決してない。特定の課題に取り組む際、我々は単一のマインドセットに依存するのではなく、単一の解決プロセス内で複数のマインドセットを統合する。しかし、既存の大規模言語モデル(LLM)の推論手法は共通の落とし穴に陥っている。すなわち、全てのステップで同じ固定されたマインドセットを適用し、同一問題の解決段階によって根本的に異なるマインドセットが必要となることを見落としているのである。この単一思考の前提が、モデルが次の知性レベルに到達することを妨げている。この制限を解決するため、我々は訓練不要なエージェントフレームワークであるChain of Mindset(CoM)を提案する。CoMはステップ単位での適応的マインドセット編成を実現し、推論を機能的に異質な四つのマインドセット(空間的、収束的、発散的、アルゴリズム的)に分解する。メタエージェントが推論状態の変化に基づいて最適なマインドセットを動的に選択し、双方向コンテキストゲートがモジュール間の情報フローを濾過して効率性と有効性を維持する。数学、コード生成、科学QA、空間推論にわたる6つの難易度の高いベンチマークによる実験では、CoMが最先端の性能を達成し、Qwen3-VL-32B-InstructとGemini-2.0-Flashにおいて全体精度で最強ベースラインをそれぞれ4.96%、4.72%上回りながら、推論効率のバランスも保つことが実証された。コードはhttps://github.com/QuantaAlpha/chain-of-mindset で公開されている。
大規模言語モデル(LLM)エージェントは複雑なタスクにおいて驚異的な成果を示すが、過去の経験から学習できずに単独動作することが多い。既存のメモリベース手法は主に生の行動軌跡を保存するが、これらは冗長でノイズが多く、汎化に不可欠な高水準で再利用可能な行動パターンの抽出を妨げている。本論文では、自動的スキル発見と再帰的進化を通じて、生の経験と方策改善の間の隔たりを埋めるSkillRLフレームワークを提案する。本手法では、経験ベースの蒸留メカニズムによる階層的スキルライブラリSkillBankの構築、汎用的およびタスク特化的なヒューリスティックスの適応的検索戦略、強化学習中にスキルライブラリとエージェントの方策を共進化させる再帰的進化メカニズムを導入する。これらの革新により、トークン使用量を大幅に削減しつつ推論効用を向上させる。ALFWorld、WebShop及び7つの検索拡張タスクによる実験結果は、SkillRLが既存の強力なベースラインを15.3%以上上回る最高水準の性能を達成し、タスク複雑性の増大に対しても堅牢性を維持することを実証している。コードはhttps://github.com/aiming-lab/SkillRLで公開されている。
記号操作から科学レベルの推論への移行は、大規模言語モデル(LLM)にとって重要なフロンティアであり、物理学は抽象論理を物理的現実に結びつける決定的な試験場となっている。物理学では、モデルが宇宙を支配する法則との物理的一貫性を維持することが求められ、この課題には抽象論理を現実に接地させるためのマルチモーダル知覚が本質的に必要となる。オリンピアドレベルでは、図表は単なる補助的説明ではなく構成要素として機能し、境界条件や空間対称性といったテキストには明示されない本質的な制約を含むことが多い。この視覚的・論理的ギャップを埋めるため、我々は高度な科学的推論に特化したオープンソースの視覚言語モデルファミリー「P1-VL」を提案する。本手法は、段階的難易度拡張による学習後安定化を図るカリキュラム強化学習と、推論時の反復的自己検証を可能とするエージェント拡張を調和させている。2024年から2025年に実施された13の試験から構成される厳密なベンチマークHiPhOによる評価では、フラッグシップモデルP1-VL-235B-A22Bが12の金メダルを獲得し、オープンソースの視覚言語モデル(VLM)として初めての成果を収めるとともに、オープンソースモデルにおける最先端の性能を達成した。エージェント拡張システムは世界総合ランキング2位を獲得し、Gemini-3-Proに次ぐ成績を収めた。物理学に留まらず、P1-VLは顕著な科学的推論能力と一般化性能を示し、STEMベンチマークにおいてベースモデルを大きく上回るリードを確立している。P1-VLをオープンソース化することで、視覚知覚と抽象物理法則の整合性を高め、機械による科学的発見を促進する一般用途の物理知能への基礎的足掛かりを提供する。
大規模言語モデル(LLM)の近年の進歩により、自律エージェントがツールや環境とのマルチターン相互作用を必要とする複雑なタスクを実行できるようになった。しかし、多様で信頼性の高い環境の不足により、このようなエージェント訓練のスケーリングが制限されている。本論文では、完全合成環境生成パイプラインであるAgent World Model(AWM)を提案する。このパイプラインを用いて、日常生活のシナリオをカバーする1,000の環境へスケールし、エージェントが豊富なツールセット(環境平均35ツール)と対話し、高品質な観測を得られるようにした。特筆すべきは、これらの環境がコード駆動でありデータベースに支えられているため、LLMでシミュレートされる環境よりも信頼性と一貫性のある状態遷移を提供することである。さらに、現実環境から軌跡を収集する場合と比較して、より効率的なエージェント相互作用を可能にする。このリソースの有効性を実証するため、マルチターンツール利用エージェントに対する大規模強化学習を実施した。完全実行可能な環境とアクセス可能なデータベース状態により、信頼性の高い報酬関数の設計も可能となった。3つのベンチマークによる実験では、ベンチマーク固有の環境ではなく合成環境のみで訓練することで、強力な分布外汎化性能が得られることが示された。コードはhttps://github.com/Snowflake-Labs/agent-world-modelで公開されている。
ブロックスパースアテンションは長文コンテキストLLMのプリフィリング加速に有望であるが、関連ブロックの効率的な特定が依然としてボトルネックとなっている。既存手法では、ブロック重要度推定の代理として粗粒度アテンションを採用することが一般的だが、高コストなトークンレベルの検索やスコアリングに依存することが多く、選択オーバーヘッドが大きい。本研究では、平均プーリングを用いた標準的な粗粒度アテンションの不正確さの原因を、回転位置埋め込み(RoPE)との理論的相互作用に遡って解明する。平均プーリングが低域通過フィルタとして機能し、高周波数次元で破壊的干渉を引き起こすことで、局所的位置情報(スラッシュパターンなど)に対する「見えない領域」が生じることを証明する。この問題に対処するため、我々は訓練不要のスペクトル認識手法Prismを提案する。これはブロック選択を高周波数分枝と低周波数分枝に分解し、エネルギー基準の温度較正を適用することで、プーリング表現から直接減衰した位置信号を復元し、純粋なブロックレベル操作による重要度推定を実現する。大規模評価により、Prismが完全アテンションと同等の精度を維持しつつ、最大5.1倍の高速化を達成することを確認した。
近年、拡散型大規模言語モデル(dLLM)は、その本質的に並列的なデコード機構と柔軟な生成パラダイムにより、独特な効率性の優位性を示している。一方、検索エージェントの急速な進展にもかかわらず、その実用的な展開は、以下の根本的な制約によって妨げられている。1) **レイテンシ課題**: ReActエージェントパラダイム下での、マルチラウンド推論、ツール呼び出し、ツール応答待機の逐次的な実行が、深刻なエンドツーエンドのレイテンシを引き起こす。直感的には、dLLMはその特徴的な強みを活かして、ReActエージェントパラダイム下でのエージェントの動作効率を最適化できる可能性がある。しかし実際には、既存のdLLM基盤モデルは2) **エージェント能力課題**に直面している。つまり、既存のdLLMは著しく弱い推論およびツール呼び出し能力を示し、これらの利点が実践で効果的に発揮されるのを妨げている。本論文では、dLLMベースの検索エージェントの最適化フレームワークであるDLLM-Searcherを提案する。エージェント能力課題を解決するため、エージェント機能を強化する教師ありファインチューニング(Agentic SFT)とエージェント分散低減偏好最適化(Agentic VRPO)を含む2段階の事後学習パイプラインを設計し、基盤dLLMの情報探索および推論能力を向上させる。レイテンシ課題を軽減するため、dLLMの柔軟な生成機構を活用し、**並列推論・実行(P-ReAct)** と呼ばれる新しいエージェントパラダイムを提案する。P-ReActは、モデルがツール呼び出し命令のデコードを優先するように導き、ツールの戻りを待ちながらモデルが思考を継続できるようにする。実験結果は、DLLM-Searcherが主流のLLMベース検索エージェントに匹敵する性能を達成し、P-ReActが約15%の推論加速をもたらすことを示している。コードはhttps://anonymous.4open.science/r/DLLM-Searcher-553C で公開されている。
行動制御可能な世界モデルのスケーリングは、行動ラベルの不足によって制限されている。潜在行動学習はラベルなしビデオから制御インターフェースを抽出する可能性を秘めるが、学習された潜在変数は文脈間での転移にしばしば失敗する:それらは場面固有の手がかりと混ざり合い、共有座標系を欠いている。これは、標準的な目的関数が各クリップ内でのみ機能し、文脈間で行動意味を調整する仕組みを提供しないために生じる。我々の重要な洞察は、行動自体は観測不能であっても、その意味的効果は観測可能であり、共有参照として機能し得る点である。本論文では、統合された潜在行動を、凍結された自己教師ありビデオエンコーダから得られる時間的特徴差分に固定する、シーケンスレベルの制御効果アライメント目的関数SeqΔ-REPAを提案する。これを基盤として、大規模な受動的ビデオから行動条件付きビデオ世界モデルを事前学習するパイプラインOlaf-Worldを提示する。大規模な実験により、本手法がより構造化された潜在行動空間を学習し、既存の最先端ベースラインと比較して、より強力なゼロショット行動転移と、新しい制御インターフェースへのよりデータ効率的な適応を実現することを実証する。
本研究では、プロフェッショナルなワークフローに基づく指示駆動型画像編集を検討し、以下の3つの持続的課題を特定した。(i) 編集者がユーザーの意図を超えてコンテンツを修正する「過剰編集」が頻発する、(ii) 既存モデルは単一ターン編集が主流であり、複数ターン編集ではオブジェクトの忠実性が損なわれる、(iii) 約1K解像度での評価は、超高解像度画像(4K等)を扱う実際のワークフローと乖離している。これらに対処するため、高忠実度・オブジェクト認識型・慎重な編集を実現する階層的エージェント計画実行フレームワーク「Agent Banana」を提案する。本フレームワークは二つの核心機構を導入する:(1) 長い対話履歴を構造化メモリに圧縮し安定した長期制御を実現する「文脈折りたたみ(Context Folding)」、(2) 非対象領域を保持しつつネイティブ解像度出力を可能にする局所的なレイヤーベース編集「画像レイヤー分解(Image Layer Decomposition)」である。厳密な評価を可能にするため、検証可能な段階的目標とネイティブ4K画像(1180万画素)を備えた高精細対話型ベンチマーク「HDD-Bench」を構築した。HDD-BenchにおいてAgent Bananaは、指示追従性能で競争力を維持しつつ、最高の複数ターン一貫性と背景忠実性(例:IC 0.871、SSIM-OM 0.84、LPIPS-OM 0.12)を達成し、標準的な単一ターン編集ベンチマークでも強固な性能を示した。本研究成果が信頼性の高いプロフェッショナル級エージェント画像編集と実ワークフローへの統合を推進することを期待する。
自己回帰型動画生成は、生成済みのフレーム群を条件付けとして逐次的に新規フレーム群を生成することで、長時間の動画合成を可能とする。しかし、最近の研究では、このようなパイプラインが深刻な時間的ドリフト(誤差が長時間にわたり蓄積・増幅される現象)に悩まされることが明らかになっている。本研究では、このドリフトの主因がモデル容量の不足ではなく、推論時の誤差伝播にあると仮説を立てる。具体的には、自己回帰的推論において、破損した潜在条件トークンが制御されず再利用されることにドリフトが起因すると主張する。この誤差蓄積を補正するため、我々は推論時に、条件付けに再利用される前に不安定な潜在トークンを特定・除去することで時間的ドリフトを軽減する簡便な手法を提案する。ここで不安定トークンとは、その表現が直前のフレーム群の表現から著しく乖離しており、破損や意味的ドリフトの可能性を示す潜在トークンと定義する。空間領域全体やモデルパラメータを変更するのではなく、自己回帰的文脈から破損した潜在トークンを明示的に除去することにより、本手法は信頼性の低い潜在情報が将来の生成ステップに影響を与えるのを防ぐ。その結果、モデル構造、訓練手順、あるいは潜在空間を変更することなく、長時間にわたる時間的一貫性を大幅に改善する。
近年、画像生成における自己回帰モデルの研究が進み、有望な成果が報告されている。また、拡散モデルと自己回帰フレームワークを組み合わせ、拡散損失による画像生成の最適化が図られている。本研究では、拡散損失を伴う拡散モデルと自己回帰モデルの理論分析を行い、後者の利点を明らかにする。条件付き拡散モデルと拡散損失を伴う自己回帰的拡散モデルの理論比較により、自己回帰モデルにおけるパッチノイズ除去最適化が条件誤差を効果的に軽減し、安定した条件分布をもたらすことを示す。さらに、自己回帰的条件生成が条件を洗練させ、条件誤差の影響が指数関数的に減衰することを理論的に明らかにする。加えて、「条件の不整合」問題に対処するため、最適輸送理論に基づく新しい条件洗練手法を提案する。条件洗練をワッサースタイン勾配流として定式化することで、理想的な条件分布への収束が保証され、条件の不整合が効果的に緩和されることを理論的に示す。実験により、本手法が拡散損失を伴う拡散モデル及び自己回帰モデルを上回る性能を発揮することを実証する。
Vision-Language-Action(VLA)モデルは、汎用ロボット制御の有望なパラダイムとして登場し、ロバスト性を訓練範囲を超えて向上させる手法としてテスト時スケーリング(TTS)が注目を集めている。しかし、既存のVLA向けTTS手法は、追加の訓練、検証器、複数の順方向計算を必要とするため、実用展開が困難である。さらに、これらの手法は視覚表現を固定したまま行動デコーディング時のみに介入するため、知覚の曖昧性が生じる状況では不十分である。このような状況では、何をすべきかを決定することと同様に、どのように知覚すべきかを再考することが重要である。これらの課題を解決するため、本研究では「自己不確実性」に基づいて視覚知覚と行動を共同で調整する簡便な推論戦略SCALEを提案する。この手法は、能動的推論理論における不確実性駆動型探索に着想を得ており、追加の訓練や検証器を必要とせず、単一の順方向計算のみで動作する。SCALEは、不確実性が高い条件下では知覚と行動の両方における探索範囲を拡大し、確信度が高い場合には利用に集中するため、様々な条件下での適応的実行を可能とする。シミュレーションおよび実世界ベンチマークによる実験により、SCALEが最先端のVLAモデルを改善し、既存のTTS手法を上回りながら、単一パス効率を維持することを実証した。
大規模言語モデル(LLM)を視覚言語モデル(VLM)に変換するには、ビジョンエンコーダーから得られた視覚トークンをLLMの埋め込み空間にマッピングすれば実現できる。興味深いことに、このマッピングは浅いMLP変換のような単純な手法で済む場合がある。なぜLLMが視覚トークンを容易に処理できるのかを理解するには、LLMの各処理層において視覚トークン表現に何が符号化されているかを明らかにする解釈可能性手法が必要である。本研究では、潜在表現を自然言語の記述へマッピングする新手法「LatentLens」を提案する。LatentLensは、大規模なテキストコーパスを符号化し、各トークンの文脈化されたトークン表現を保存することで機能する。視覚トークン表現は、これらの文脈化されたテキスト表現と比較され、上位k近傍の表現が視覚トークンの記述を提供する。本手法を10種類のVLMで評価した結果、LogitLensなどの一般的に使用される手法は、視覚トークンの解釈可能性を大幅に過小評価していることがわかった。一方LatentLensでは、調査したすべてのモデルと層において、大多数の視覚トークンが解釈可能であった。質的には、LatentLensが生成する記述は意味的に有意義であり、個々のトークンよりも人間にとってより細かい解釈を提供する。より広義には、本研究の知見は視覚と言語表現の間のアラインメントに関する新たな証拠を示し、潜在表現を分析する新たな方向性を開拓するものである。
エージェントにタスク推論、物理的結果の予測、精密な行動生成の能力を付与することは、汎用マニピュレーションにおいて不可欠である。近年のVision-Language-Action(VLA)モデルは事前学習済み基盤モデルを活用するが、通常は言語的計画立案または視覚的予測のいずれかに単独で焦点を当てている。これらの手法は両能力を同時に統合して行動生成を導くことが稀であり、複雑で長期的なマニピュレーション課題において最適とは言えない性能にとどまっている。この隔たりを埋めるため、我々はBagelVLAを提案する。これは言語的計画立案、視覚的予測、行動生成を単一フレームワーク内に統合した統一モデルである。事前学習済みの統一的理解・生成モデルから初期化されたBagelVLAは、テキスト推論と視覚予測を行動実行ループに直接組み込むように訓練される。これらのモダリティを効率的に結合するため、Residual Flow Guidance(RFG)を導入する。RFGは現在の観測から初期化し、単一段階のノイズ除去を活用して予測的視覚特徴を抽出し、最小遅延で行動生成を誘導する。大規模な実験により、BagelVLAが特に多段階の推論を要するタスクにおいて、複数のシミュレーション及び実世界ベンチマークで既存のベースラインを有意に上回ることを実証した。
多様なシナリオに適応可能な汎用エージェントの訓練には、自己探索のための対話型環境が不可欠である。しかし、対話型環境は依然として深刻に不足しており、既存の環境合成手法は環境の多様性とスケーラビリティにおいて重大な限界に直面している。これらの課題に対処するため、我々は完全にインタラクティブな環境と検証可能なタスクを一から構築するフレームワーク「ScaleEnv」を提案する。具体的には、ScaleEnvは手続き的テストによる環境の信頼性を確保し、ツール依存グラフの展開と実行可能アクションの検証によるタスクの完全性と解決可能性を保証する。ScaleEnv内での探索を通じてエージェントが学習することを可能にすることで、τ^2-BenchやVitaBenchといった未見のマルチターンツール使用ベンチマークにおいて顕著な性能向上を示し、強力な一般化能力を実証した。さらに、ドメイン数の増加とモデルの一般化性能の関係を調査し、環境多様性のスケーリングが堅牢なエージェント学習にとって重要であるという実証的証拠を提供する。
インターネット規模のビデオデータを用いた視覚-言語-行動(VLA)ポリシーの事前学習は魅力的なアプローチであるが、現在の潜在行動目的関数は誤った概念を学習しがちである。それらは行動に関連する状態遷移ではなく、画素の変動に縛られており、外観バイアス、無意味な動き、情報漏洩の影響を受けやすい。本論文では、これらの欠点を設計段階で回避するJEPAスタイルの事前学習フレームワーク「VLA-JEPA」を提案する。中核となる概念は、漏洩のない状態予測である。ターゲットエンコーダが未来フレームから潜在表現を生成する一方、学生パスは現在の観測のみを入力とする。未来情報は入力としてではなく、監督ターゲットとしてのみ利用される。画素空間ではなく潜在空間で予測を行うことで、VLA-JEPAはカメラ動作や無関係な背景変化に対して頑健なダイナミクスの抽象化を学習する。これにより、従来の潜在行動パイプラインのような複数段階の複雑さを伴わない、JEPA事前学習と行動ヘッドのファインチューニングから成るシンプルな2段階の手法が実現する。LIBERO、LIBERO-Plus、SimplerEnvおよび実世界のマニピュレーションタスクにおける実験により、VLA-JEPAが既存手法を上回る一般化性能と頑健性を一貫して達成することが示された。
ロボット学習における現在の主流パラダイムは、実行時の言語プロンプトを用いて環境、身体性、タスクを横断的に汎化することを試みている。しかし、このアプローチには根本的なジレンマが存在する。言語はしばしば抽象度が高すぎ、堅牢なマニピュレーションに必要な具体的な物理的理解を導くには不十分なのである。本研究では、言語条件付けを空間内の物理的接触点に置き換えたContact-Anchored Policies(CAP)を提案する。同時に、CAPを単一の汎用ポリシーではなく、モジュール化されたユーティリティモデルのライブラリとして構成する。この因数分解により、実世界とシミュレーションを往復する反復サイクルを実現する。軽量なシミュレーションベンチマークであるEgoGymを構築し、実世界での展開前に故障モードを迅速に特定し、モデルとデータセットを改良する。接触に基づく条件付けとシミュレーションによる反復により、CAPは基本操作スキル3種において、わずか23時間の実演データのみを用いて、新しい環境や身体性にそのまま適用可能な汎化性能を発揮し、大規模な最先端VLAをゼロショット評価で56%上回ることを示す。全てのモデルチェックポイント、コードベース、ハードウェア設計、シミュレーション、データセットを公開する。プロジェクトページ: https://cap-policy.github.io/
マルチエージェントLLMシステムは役割分担によって高度な推論とツール利用を実現するが、こうしたシステムに対する信頼性の高い強化学習(RL)事後学習は依然として困難である。本研究では、グループベースRLをマルチエージェントLLMシステムに拡張する際の学習不安定性の根本原因を理論的に特定する。GRPOスタイルの最適化下では、グローバル正規化ベースラインが多様なエージェントの報酬分布から乖離し、最終的に勾配ノルムの不安定性を引き起こすことを示す。この知見に基づき、マルチエージェントLLMシステム向けの簡潔かつ安定したRL学習手法Dr. MASを提案する。Dr. MASはエージェント単位の解決策として、各エージェント自身の報酬統計を用いたadvantageの正規化を行い、勾配スケールを調整することで理論的・実証的に学習を劇的に安定化させる。アルゴリズムに加え、Dr. MASはマルチエージェントLLMシステム向けのend-to-end RL学習フレームワークを提供し、スケーラブルなオーケストレーション、柔軟なエージェント単位のLLMサービスと最適化設定、LLMアクターバックエンドの共有リソーススケジューリングをサポートする。Qwen2.5およびQwen3シリーズモデルを用いたマルチエージェント数学推論とマルチターン検索ベンチマークで評価を実施。Dr. MASは従来のGRPOを明確に上回り(数学タスクで平均+5.6% avg@16、+4.6% pass@16、検索タスクで+15.2% avg@16、+13.1% pass@16)、勾配スパイクを大幅に抑制する。さらに、異種エージェントモデル割り当て下でも高い有効性を維持しつつ効率性を向上させる。
ラベルのない映像データから転移可能な知識を学習し、新たな環境に適用することは、知的エージェントの基本的な能力である。本研究はVideoWorld 2を提案し、未加工の実世界映像から直接転移可能な知識を学習する初の試みを提示する。その中核には、動的拡張潜在力学モデル(dLDM)を導入し、行動の力学を視覚的外観から分離する。事前学習済みのビデオ拡散モデルが視覚的外観のモデリングを担当し、dLDMがコンパクトで意味のあるタスク関連の力学に焦点を当てた潜在コードを学習することを可能にする。これらの潜在コードは自己回帰的にモデル化され、タスク方策の学習と長期的な推論をサポートする。VideoWorld 2を困難な実世界の手作業タスクで評価した結果、従来のビデオ生成モデルや潜在力学モデルが信頼性高く動作できない場面において、最大70%のタスク成功率向上と一貫性のある長い実行ビデオの生成を達成した。ロボティクス分野では、VideoWorld 2がOpen-Xデータセットから効果的な操作知識を獲得し、CALVINにおけるタスク性能を大幅に向上させることを示す。本研究は、未加工の映像から直接転移可能な世界知識を学習する可能性を明らかにし、すべてのコード、データ、モデルをさらなる研究のためにオープンソース化する予定である。
高品質かつオープンなデータセットは、テキストから画像への変換(T2I)ファインチューニングにおける主要なボトルネックであり続けている。モデルアーキテクチャや学習パイプラインが急速に進歩しているにもかかわらず、公開されているファインチューニング用データセットのほとんどは、解像度の低さ、テキストと画像の対応関係の不正確さ、あるいは多様性の欠如に悩まされており、オープンな研究モデルとエンタープライズ向けモデルとの間には明らかな性能差が生じている。本研究では、T2Iファインチューニングのための大規模、高品質、かつ完全にオープンなデータセット「Fine-T2I」を提案する。Fine-T2Iは、10のタスク組み合わせ、32のプロンプトカテゴリ、11の視覚スタイル、5つのプロンプトテンプレートを網羅し、強力な最新モデルによって生成された合成画像と、プロの写真家による厳選された実画像とを組み合わせている。全てのサンプルは、テキストと画像の対応関係、視覚的忠実度、プロンプトの品質について厳格にフィルタリングされ、初期候補の95%以上が除去されている。最終的なデータセットは600万以上のテキスト-画像ペアを含み、ディスク容量は約2TBに及び、ファインチューニングレベルの品質を維持しながら事前学習データセットの規模に迫っている。多様な事前学習済み拡散モデルおよび自己回帰モデルにおいて、Fine-T2Iによるファインチューニングは、人間による評価、視覚的比較、自動評価指標によって検証されたように、生成品質と指示への忠実度の両方を一貫して向上させた。我々はFine-T2Iをオープンライセンスの下で公開し、オープンコミュニティにおけるT2Iファインチューニングのデータ格差を解消する一助としたい。
端末ベースタスクにおけるエージェンシックモデルの学習には、多様なドメインにわたる現実的な長期的相互作用を捉えた高品質な端末軌跡が不可欠である。しかし、大規模なデータ構築は、以下の2つの要件から依然として困難である。すなわち、各インスタンスが適切かつ多くの場合異なるDocker環境を必要とするため「実行可能性」が、また、異種混在のタスク出力が統一された標準的な検証を妨げるため「検証可能性」が課題となる。これらの課題に対処するため、本論文ではTerminalTrajを提案する。これは、(i)高品質なリポジトリをフィルタリングしてDocker化された実行環境を構築し、(ii)Dockerに合わせたタスクインスタンスを生成し、(iii)実行可能な検証コードを用いてエージェント軌跡を合成する、スケーラブルなパイプラインである。TerminalTrajを用いて、32KのDockerイメージを精選し、8つのドメインにわたって50,733件の検証済み端末軌跡を生成した。このデータでQwen2.5-Coderバックボーンを学習させたモデルは、TerminalBench (TB) において一貫した性能向上を達成し、TB 1.0では最大20%、TB 2.0では10%の向上をそれぞれのバックボーンに対して示した。特に、TerminalTraj-32Bは、100Bパラメータ未満のモデルの中で強力な性能を発揮し、TB 1.0で35.30%、TB 2.0で22.00%を達成し、改善されたテスト時スケーリング挙動を示した。すべてのコードとデータはhttps://github.com/Wusiwei0410/TerminalTrajで公開されている。
大規模言語モデル(LLMs)は、二次的な計算コスト、情報の忘却、および検索拡張生成(RAG)に内在する文脈断片化など、長文脈処理において重大な課題に直面している。本論文では、すべての生トークンを処理するのではなく、チャンク単位の圧縮と選択的記憶想起に基づく、認知科学にヒントを得た効率的な長文脈推論フレームワークを提案する。このフレームワークは、長い入力をチャンクに分割し、学習済みの圧縮器を用いて各チャンクを圧縮された記憶表現に符号化する。ゲーティングモジュールは関連する記憶ブロックを動的に選択し、それらは下流タスクを解決するために、進化する作業記憶を持つ推論モジュールによって反復処理される。圧縮器と推論器はエンドツーエンドの強化学習によって共同最適化され、ゲーティングモジュールは分類器として別個に訓練される。実験結果から、提案手法はRULER-HQAなどのマルチホップ推論ベンチマークで競争力のある精度を達成し、文脈長を7Kトークンから1.75Mトークンへ外挿可能であり、強力な長文脈ベースラインと比較して有利な精度と効率のトレードオフを提供することを示す。特に、MemAgentと比較して、ピークGPUメモリ使用量を最大2倍削減し、推論速度を6倍向上させる。
アクティベーション・ステアリングは、大規模言語モデル(LLM)を下流の振る舞いに効率的に適応させる有望な手法として登場している。しかし、既存のステアリング手法の多くは、タスクや概念ごとに単一の静的な方向性に依存しており、タスクの変動に対して柔軟性に欠け、複数の調整された能力を必要とする複雑なタスクには不十分である。この限界に対処するため、我々はSTEER2ADAPTを提案する。これは、新たなステアリングベクトルをゼロから学習するのではなく、それらを合成することでLLMを適応させる軽量フレームワークである。多くの領域(例:推論や安全性)において、タスクは少数の根底にある概念次元を共有している。STEER2ADAPTはこれらの次元を再利用可能な低次元の意味的事前部分空間として捉え、わずかな例から基底ベクトルの線形結合を動的に発見することで新たなタスクに適応する。推論と安全性の領域における9つのタスクと3つのモデルを用いた実験により、STEER2ADAPTの有効性が実証され、平均8.2%の改善が達成された。詳細な分析により、STEER2ADAPTがデータ効率が高く、安定した、透過的な推論時適応手法であることがさらに示された。
拡散トランスフォーマーは、一般に注意層によるテキスト情報の組み込みと、プール化されたテキスト埋め込みを用いた調整機構を採用している。しかし、最近の手法では調整ベースのテキスト条件付けを廃し、注意機構のみに依存する傾向にある。本論文では、調整ベースのテキスト条件付けが本当に必要か、また性能上の優位性をもたらし得るかという問題に取り組む。分析の結果、従来の用法では、プール化された埋め込みは全体の性能にほとんど寄与せず、プロンプト情報を忠実に伝達するには注意機構のみで通常は十分であることが示唆された。しかし我々は、異なる視点―すなわちガイダンスとして機能させ、より望ましい特性への制御可能なシフトを可能にする―から用いた場合、プール化された埋め込みが大きな性能向上をもたらし得ることを明らかにする。この手法は学習不要で実装が簡単、実行時のオーバーヘッドは無視でき、様々な拡散モデルに適用可能であり、テキストからの画像・動画生成や画像編集など、多様なタスクにおいて改善をもたらす。
本研究では、7Bパラメータ規模のエンドツーエンドLALMであるCovo-Audioを提案する。本モデルは連続的な音声入力を直接処理し、単一の統一アーキテクチャ内で音声出力を生成する。大規模に精選された事前学習と標的化された事後学習を通じて、Covo-Audioは音声-テキストモデリング、音声対話、音声理解、音声理解、全二重音声インタラクションなど、広範なタスクにおいて、同規模モデルの中で最先端または競争力のある性能を達成する。大規模な評価により、事前学習済み基盤モデルが複数のベンチマークで強力な音声-テキスト理解能力と意味推論能力を示し、同規模の代表的なオープンソースモデルを凌駕することが実証された。さらに、対話特化型バリアントであるCovo-Audio-Chatは、理解力、文脈推論、指示追従、文脈に即した共感的な応答生成を含む優れた音声対話能力を示し、実世界の対話アシスタントシナリオへの適用可能性を検証した。進化した全二重モデルであるCovo-Audio-Chat-FDは、音声対話能力と全二重インタラクション行動の両方で大幅に優れた性能を達成し、実用的な堅牢性における有効性を実証した。自然な対話システムにおけるエンドツーエンドLALMの導入コストの高さを軽減するため、対話知能と音声レンダリングを分離するインテリジェンス-スピーカー分離戦略を提案する。これにより、対話性能を維持しつつ、最小限のTTSデータで柔軟な音声カスタマイズを可能にする。全体として、我々の結果は、7B規模のモデルが高度な音声知能と高水準の意味推論を統合する強力な可能性を浮き彫りにし、より高機能で汎用性の高いLALMへのスケーラブルな道筋を示唆している。
思考連鎖(CoT)推論とその派生手法は、複雑な推論タスクにおける言語モデルの性能を大幅に向上させてきたが、異なる戦略が汎化を促進する正確なメカニズムについては未解明な点が多い。現在の説明では、推論時の計算量増加や構造的ガイダンスが指摘されることが多いが、これらの要因と汎化性能の間に一貫した定量的関連性を確立することは依然として困難である。本研究では、推論連鎖の効果を特徴づける定量的指標として内在的次元性を同定する。内在的次元性は、特定のタスクで所与の精度閾値に到達するために必要なモデル次元の最小数を定量化する。モデルアーキテクチャを固定し、異なる推論戦略を通じてタスク定式化を変化させることで、効果的な推論戦略が一貫してタスクの内在的次元性を低減することを実証する。Gemma-3 1Bおよび4Bを用いたGSM8Kでの検証により、推論戦略の内在的次元性と、分布内データおよび分布外データにおけるその汎化性能との間に強い逆相関が観察された。我々の発見は、効果的な推論連鎖が、より少ないパラメータでタスクを効率的に圧縮することによって学習を促進することを示唆しており、推論プロセスを分析する新たな定量的指標を提供するものである。
大規模言語モデル(LLM)は複雑な数学的問題を解決する可能性を示しているが、正確で一貫性のある解法を生成する点では依然として課題を残している。強化学習(RL)は、タスク固有の報酬に合わせてこれらのモデルを調整し、全体的な品質と信頼性を向上させる枠組みである。Group Relative Policy Optimization(GRPO)は、グループ相対的報酬正規化を活用した、近接方策最適化(PPO)に代わる効率的で価値関数を必要としない手法である。本論文では、モデルが生成した下書きを通じて動的な自己条件付けを追加する、GRPOの2段階拡張であるIterative Group Relative Policy Optimization(iGRPO)を提案する。第1段階では、iGRPOは複数の探索的下書きをサンプリングし、最適化に使用するものと同じスカラー報酬信号を用いて最高報酬の下書きを選択する。第2段階では、この最良の下書きを元のプロンプトに追加し、下書きを条件とした改良版に対してGRPOスタイルの更新を適用し、自身の以前の最良の試行を超えて改善するように方策を訓練する。同一のロールアウト予算の下で、iGRPOはベースモデル(例:Nemotron-H-8B-Base-8K、DeepSeek-R1 Distilled)において一貫してGRPOを上回り、多様な推論ベンチマークにおけるその有効性を実証した。さらに、AceReason-Mathで学習されたOpenReasoning-Nemotron-7BにiGRPOを適用した結果、AIME24およびAIME25において、それぞれ85.62%、79.64%という新たなstate-of-the-art結果を達成した。アブレーション研究はさらに、この改良ラッパーがGRPOの亜種を超えて一般化し、生成的ジャッジから恩恵を得られ、エントロピーの急減を遅らせることで学習ダイナミクスを変化させることを示した。これらの結果は、検証可能な数学的推論を進歩させるための、反復的かつ自己フィードバックに基づくRLの可能性を強調するものである。
GUI自動化の効果的なスケーリングは、コンピュータ利用エージェント(CUA)にとって不可欠である。しかし、既存研究は主にGUIグラウンディングのスケーリングに焦点を当てており、より高度なデータ収集を必要とするGUIプランニングの重要性が見過ごされている。現実には、CUAによるアプリ/デスクトップ/ウェブページ横断的な探索プロセスは通常ツリー構造を辿り、初期の機能エントリーポイントほど高頻度で探索される傾向がある。したがって、大規模軌跡をツリー構造で整理することでデータコストを削減し、GUIプランニングのデータスケーリングを効率化できる。本研究では、ツリー構造化された検証可能な進化によりGUI自動化を効率的にスケールさせるTreeCUAを提案する。環境探索、アクション検証、軌跡要約、品質評価を実行するマルチエージェント協調フレームワークを構築し、高品質でスケーラブルなGUI軌跡を生成する。効率性向上のため、重複探索ノードを保存・再生する新しいツリーベーストポロジーを考案し、深さ(軌跡の難易度)と幅(軌跡の多様性)のバランスを取る適応的探索アルゴリズムを設計した。さらに、低品質生成を回避するための世界知識ガイダンスとグローバルメモリバックトラッキングを開発した。最後に、豊富なツリーノード情報から自然に拡張したTreeCUA-DPO法を提案し、隣接軌跡の分岐情報を参照することでGUIプランニング能力を向上させる。実験結果では、TreeCUAとTreeCUA-DPOが大幅な改善を示し、ドメイン外(OOD)評価でも強力な一般化性能を実証した。全ての軌跡ノード情報とコードはhttps://github.com/UITron-hub/TreeCUAで公開予定である。
実世界のデスクトップ環境におけるエンドツーエンドGUIエージェントの構築には、大量の高品質なインタラクションデータが必要とされる。しかし、人間による実演データの収集はコストが高く、既存の合成データ生成パイプラインは、タスク多様性の不足やノイズの多い目標から逸脱した軌道といった課題を抱えている。本研究では、少数の検証済みシード実演からスケーラブルなデスクトップ操作データを効率的に生成する軌道拡張フレームワーク「Anchor」を提案する。各シード軌道から出発し、意味のある状態変化に対応する分岐点を特定し、現在のGUIコンテキストに基づいた新たな状態に根ざしたタスク変種を提案する。実行エージェントは提案された指示に従って新たな軌道を生成し、検証器は状態を意識したチェックと軌道レベルの一貫性を通じてタスク完了を保証する。教師データの品質向上のために、タスク条件付きのステップレベルフィルタリングを適用して根拠のない行動を除去し、分岐後のセグメントをノイズ除去して意図の一貫性を維持する。標準的なデスクトップベンチマーク(OSWorldおよびWindowsAgentArena)における実験結果から、本フレームワークで拡張したデータでファインチューニングしたモデルは、ゼロショットエージェントや代表的な合成ベースラインを一貫して上回り、様々なアプリケーションやオペレーティングシステムに汎化することを示す。
実世界での具身エージェントのためのデータ収集は、依然としてコストが高く安全性に課題があるため、スケーラブルで現実的、かつシミュレータ対応の3D環境の構築が求められている。しかし、既存のシーン生成システムはルールベースやタスク特化型のパイプラインに依存することが多く、不自然なアーティファクトや物理的に不正なシーンを生成しがちである。本論文ではSAGEを提案する。これはエージェント型フレームワークであり、ユーザーが指定した具身タスク(例:「ボウルを取ってテーブルの上に置く」)から意図を理解し、シミュレーション対応の環境を自動的かつ大規模に生成する。本エージェントは、レイアウトとオブジェクト配置のための複数の生成器を、意味的な妥当性、視覚的な現実感、物理的な安定性を評価する批評家と組み合わせる。反復的な推論と適応的なツール選択を通じて、ユーザーの意図と物理的な正当性が満たされるまでシーンを自己修正する。結果として得られる環境は現実的で多様性に富み、現代のシミュレータでポリシー訓練に直接展開可能である。このデータのみで訓練されたポリシーは、明確なスケーリングの傾向を示し、未見のオブジェクトやレイアウトへも一般化し、具身AIのためのシミュレーション駆動型スケーリングの可能性を実証する。コード、デモ、およびSAGE-10kデータセットはプロジェクトページ(https://nvlabs.github.io/sage )で公開されている。
本論文は、ビジュアル生成における連続的パイプラインの優位性に異議を唱える。我々は、離散的手法と連続的手法の性能差を体系的に調査した。離散的トークナイザーが本質的に劣るという通説に反し、この差は主に潜在空間に割り当てられる総ビット数(すなわち、圧縮率)に起因することを実証する。コードブックサイズをスケールアップすることでこの差が効果的に埋まり、離散的トークナイザーが連続的手法に匹敵し、あるいは凌駕しうることを示す。しかし、既存の離散的生成手法はこの知見を活かしきれず、コードブックのスケールアップに伴う性能劣化や膨大な学習コストに悩まされている。この問題を解決するため、我々は任意のコードブックサイズをサポートするスケーラブルなフレームワークであるmasked Bit AutoRegressive modeling (BAR)を提案する。オートリグレッシブ変換器にマスクされたビットモデリングヘッドを装備することで、BARは離散トークンをその構成ビットを段階的に生成することで予測する。BARはImageNet-256において0.99という新たなstate-of-the-art gFIDを達成し、連続・離散両パラダイムの主要手法を凌駕する性能を示すとともに、サンプリングコストを大幅に削減し、従来の連続的アプローチよりも高速に収束する。プロジェクトページはhttps://bar-gen.github.io/で公開されている。
大規模推論モデル(LRM)における複雑な問題解決において、並列思考が新たなパラダイムとして登場している。近年の手法は、教師ありファインチューニングで遭遇する計算リソースと有効性の限界に対処するため、強化学習(RL)を活用して並列思考を強化することを目指している。しかし、既存研究の多くは主に集約段階の最適化に焦点を当てており、経路探索段階への注目は限られている。本論文では、検証可能な報酬を用いた強化学習(RLVR)設定下での並列思考の最適化を理論的に分析し、探索経路間の相互情報量ボトルネックが全体の性能を根本的に制限していることを明らかにする。この問題に対処するため、我々はアウトラインベース経路探索(OPE)を提案する。OPEは、並列経路推論の前に多様な推論アウトラインを生成することで解空間を明示的に分割し、情報の冗長性を低減し、探索経路間で捕捉される情報の多様性を向上させる。我々はOPEを、アウトラインプランニングとアウトラインベース推論を独立して最適化する反復的RL戦略で実装する。複数の難易度の高い数学的ベンチマークにおける広範な実験により、OPEが様々な集約戦略において推論性能を効果的に改善し、LRMが正しい解をより確実に発見できるようにすることを実証する。
計画機能は、複雑で長期的なタスクを遂行する現代のエージェントシステムの中核的能力となっている。しかし、既存のアプローチは主に、固定化され手作りされた計画構造に依存しており、オープンエンドな問題の構造的多様性に適応する柔軟性を欠いている。この課題を解決するため、我々はタスク固有の計画アーキテクチャを自律的に合成し、動的に修正するメタ計画パラダイム「TodoEvolve」を提案する。具体的にはまず、トポロジー、初期化、適応、ナビゲーションを統一的コードベース内で標準化するモジュラー設計空間「PlanFactory」を構築し、異種混合の計画パターンに対する共通インターフェースを提供する。PlanFactoryを活用して高品質な計画軌跡を収集し、Impedance-Guided Preference Optimization (IGPO) を介してTodo-14Bを訓練する。IGPOは、任意のタスクとエージェント基盤において、高性能、安定性、トークン効率に優れた計画システムの生成を促進する多目的強化学習目標である。5つのエージェントベンチマークによる実証評価において、TodoEvolveは慎重に設計された計画モジュールを一貫して凌駕しつつ、経済的なAPIコストと実行時オーバーヘッドを維持することを実証した。
言語モデルにおける活性化分解手法は、概念が活性化空間においてどのように実現されるかという幾何学的仮説と密接に結びついている。既存の手法は個々の大域的方向性を探索し、線形分離可能性を暗黙に仮定するが、これは非線形または多次元構造を持つ概念を見落としている。本研究では、因子分析混合モデル(MFA)を、活性化空間を局所的な共分散構造を持つガウス領域の集合としてモデル化するスケーラブルで教師なしの代替手法として活用する。MFAは活性化を2つの合成的な幾何学的対象に分解する:活性化空間内の領域の重心と、重心からの局所的変動である。我々はLlama-3.1-8BおよびGemma-2-2Bに対して大規模なMFAを学習し、それらが活性化空間内の複雑な非線形構造を捕捉することを示す。さらに、局在化とステアリングのベンチマークによる評価では、MFAが教師なしベースラインを上回り、教師あり局在化手法と競合する性能を示し、しばしばスパースオートエンコーダーよりも強力なステアリング性能を達成する。総合的に、我々の知見は、部分空間を通じて表現される局所幾何学を、単離された方向性では捕捉できない複雑な構造を考慮しつつ、スケーラブルな概念発見とモデル制御のための有望な分析単位として位置づける。
並列拡散復号は、ステップごとに複数のトークンをアンマスクすることで拡散言語モデルの推論を高速化できるが、過度な並列化は品質を損なうことが多い。取消可能復号は以前のトークンを再チェックすることでこれを緩和するが、既存の検証方式ではフリップフロップ振動が頻発することが観察される。これは、トークンが再マスクされた後、変更されずに復元される現象である。この動作は二つの方法で推論を遅延させる:検証済み位置の再マスクは並列起草のための条件付けコンテキストを弱体化させ、繰り返される再マスクサイクルは修正予算を浪費する。我々はCOVER(効率的修正のためのキャッシュ上書き検証)を提案する。これは単一のフォワードパス内でleave-one-out検証と安定した起草を実行する。COVERはKVキャッシュ上書きにより二つのアテンションビューを構築する:選択されたシードは検証のためにマスクされ、そのキャッシュされたキー・バリュー状態は他の全てのクエリに注入されて文脈情報を保持し、閉形式の対角補正によりシード位置での自己漏洩を防止する。COVERはさらに、不確実性、下流への影響、キャッシュドリフトをバランスさせる安定性認識スコアを用いてシードを優先し、ステップごとの検証シード数を適応させる。ベンチマークを通じて、COVERは不必要な修正を著しく削減し、出力品質を維持しつつより高速な復号を実現する。
大規模言語モデル(LLM)はソフトウェア開発においてますます利用が増えているが、安全でないコードを生成する傾向は、実世界での導入における主要な障壁となっている。既存の安全なコード整合性手法は、機能性とセキュリティのジレンマに悩まされることが多く、実用性を大幅に損なう代償としてセキュリティを向上させている。本研究では、機能性を維持した安全なコード生成のためのオンライン強化学習フレームワークであるSecCoderXを提案する。SecCoderXはまず、成熟した検出リソースを二つの方法で転用することで、脆弱性検出と安全なコード生成を橋渡しする:(i)オンラインRLロールアウトのための多様で現実に基づいた脆弱性誘発コーディングタスクの合成、(ii)スケーラブルで信頼性の高いセキュリティ監督を提供する推論ベースの脆弱性報酬モデルの訓練。これらのコンポーネントはオンラインRLループで統合され、コードLLMを整合させて安全かつ機能的なコードを生成する。大規模な実験により、SecCoderXが最先端の性能を達成し、非整合モデルに比べて有効安全率(ESR)を約10%向上させる一方、従来手法ではESRが14-54%低下することが多いことを実証した。コード、データセット、モデルチェックポイントはhttps://github.com/AndrewWTY/SecCoderX で公開している。
フローマッチングは優雅な手法であるが、単一サンプルの条件付き速度に依存するため、分散の高い訓練目標が生じ、最適化が不安定になり収束が遅延する。本論文ではこの分散を明示的に特徴づけることで、1) 事前分布近傍の高分散領域(最適化が困難)と、2) データ分布近傍の低分散領域(条件付き速度と周辺速度がほぼ一致)を特定する。この知見を活用し、訓練とサンプリングの両方を改善する統一フレームワークStable Velocityを提案する。訓練では、不偏性を保ちつつ分散低減を図る目標関数Stable Velocity Matching(StableVM)と、低分散領域で補助的な教師信号を適応的に強化するVariance-Aware Representation Alignment(VA-REPA)を導入する。推論では、低分散領域における動力学が閉形式での単純化を許容することを示し、ファインチューニング不要の高速化手法Stable Velocity Sampling(StableVS)を実現する。ImageNet 256×256および大規模事前学習済みテキスト画像生成モデル(SD3.5、Flux、Qwen-Image、Wan2.2)を用いた大規模実験により、訓練効率の向上と、サンプル品質を劣化させることなく低分散領域内で2倍以上高速なサンプリングを実現することを実証した。コードはhttps://github.com/linYDTHU/StableVelocityで公開している。
視覚言語モデル(VLM)における複雑な推論問題解決には、自己修正が不可欠である。しかし、効果的な自己修正行動は稀にしか生じないため学習信号が極めて疎となり、既存の強化学習(RL)手法ではこれを学習することが困難である。この課題に対処するため、我々は既存のロールアウトを再結合することで密な自己修正事例を合成するRLロールアウト拡張フレームワーク「修正特化型ロールアウト(Octopus)」を提案する。この拡張により、ロールアウトの再利用によるサンプル効率の向上と、均衡の取れた監督によるRL最適化の安定化が同時に実現される。さらに、自己修正と直接推論を分離して信号の衝突を回避し、両行動の効果的な学習を可能とする応答マスキング戦略を導入する。これを基盤として、制御可能な自己修正能力を備えた推論VLMであるOctopus-8Bを開発した。7つのベンチマークにおいて、オープンソースVLMの中でSoTA性能を達成し、最高のRLVRベースラインを1.0ポイント上回りながら、ステップ当たりの学習時間は0.72倍のみで済んだ。
本論文では、テストタイムトレーニングと、モデルパラメータから柔軟にオフロードまたはマージ可能な新たな種類のパラメトリックメモリを統合することを目指す。我々はLocasを提案する。これは、現代のトランスフォーマーにおけるFFNブロックの設計を共有する局所サポート型パラメトリックメモリであり、効率的な継続学習をサポートしつつ、モデルパラメータへ柔軟に恒久化(permanentized)できる。Locasの2つの主要なバリアントについて論じる:一つは、より明確な理論的保証を持つ従来の2層MLP設計のもの。もう一つは、SOTA大規模言語モデル(LLM)と同じGLU-FFN構造を共有し、既存モデルに容易に付加でき、パラメータ効率と計算効率の両方に優れた継続学習を実現する。決定的に重要なのは、モデルパラメータ、活性化、および/または勾配を再利用するという原理に基づいた方法で行う、このような低ランクの横方向FFN型メモリの適切な初期化が、高速な収束、改善された汎化、および破滅的忘却の防止に不可欠であることを示すことである。提案するメモリ機構を、PG-19全書籍言語モデリングタスクおよびLoCoMo長文対話質問応答タスクで検証する。最小の場合でわずか0.02%の追加パラメータのみで、Locas-GLUははるかに小さなコンテキストウィンドウを維持しつつ、過去のコンテキストからの情報を格納可能である。さらに、比較的MMLU評価を通じて、Locasを用いて書籍全体を記憶した後のモデルの一般的能力の損失も検証する。結果は、Locasがモデルの既存の内部知識の破滅的忘却を最小化しつつ、過去のコンテキストをパラメトリック知識として恒久化する有望な能力を示している。
LLMベースのコーディングエージェントは、自動化された課題解決ベンチマークで高い性能を示しているが、既存の評価は最終的なタスク成功率に焦点が当てられており、問題解決過程におけるコードコンテキストの取得・活用方法に関する知見は限られている。本研究では、コーディングエージェントのコンテキスト取得をプロセス指向で評価するContextBenchを提案する。ContextBenchは、8つのプログラミング言語にわたる66のリポジトリから1,136件の課題解決タスクで構成され、各タスクは人手で注釈付けされたゴールドコンテキストで拡張されている。さらに、エージェントの動作軌跡を追跡し、課題解決過程全体を通じてコンテキストの再現率、適合率、効率性を測定する自動評価フレームワークを実装した。ContextBenchを用いて、4つの先進的LLMと5つのコーディングエージェントを評価した結果、(1) 高度なエージェント scaffolding はコンテキスト取得において僅かな改善しかもたらさない(コーディングエージェントにおける「苦い教訓」)、(2) LLMは一貫して適合率よりも再現率を重視する、(3) 探索されたコンテキストと実際に活用されたコンテキストの間には大きな隔たりが存在する、ことが明らかになった。ContextBenchは、既存のエンドツーエンドベンチマークを、課題解決プロセスを可視化する中間ゴールドコンテキスト指標で補完する。これらのコンテキストは、ソフトウェアタスクにおけるLLMの推論を導く貴重な中間信号を提供する。
強化学習は大規模言語モデルの推論能力を大幅に改善するが、思考連鎖の出力を長くし、学習時と推論時の両方で計算コストを増大させる傾向もある。長さ制御手法は提案されているものの、効率と性能を両立させる最適な出力長は未解明である。本研究では、Qwen3-1.7B BaseとDeepSeek-R1-Distill-Qwen-1.5Bの2モデルにおいて複数の長さ制御手法を比較する。結果から、長さペナルティは推論の獲得を妨げる可能性がある一方、適切に調整された長さ制御は強力な事前推論能力を持つモデルの効率を向上させうることが示された。先行研究を強化学習で訓練された方策に拡張することで、1) 長い出力は分散の増大を招き、2) 短い出力は思考不足に繋がる、という2つの失敗モードを特定した。
基盤モデルのステートレス性は、長期的な推論と適応の中核能力である継続的学習能力をエージェントシステムが発揮する上でのボトルネックとなっている。この制限に対処するため、エージェントシステムは一般にメモリモジュールを組み込み、過去の経験を保持・再利用することで、テスト時間中の継続的学習を目指す。しかし、既存のメモリ設計の多くは人手によって作成され固定されているため、実世界タスクの多様性と非定常性に適応する能力が制限されている。本論文では、ALMA(Automated meta-Learning of Memory designs for Agentic systems)を提案する。これは、人手で設計されたメモリ設計を置き換えるためにメタ学習によりメモリ設計を獲得するフレームワークであり、人的労力を最小化するとともに、エージェントシステムが様々な領域にわたって継続的学習者となることを可能にする。我々のアプローチでは、メタエージェントが実行可能なコードとして表現されたメモリ設計をオープンエンドに探索し、データベーススキーマやその検索・更新メカニズムを含む任意のメモリ設計の発見を理論的に可能とする。4つの逐次意思決定領域における大規模な実験により、学習されたメモリ設計が、全てのベンチマークにおいて最先端の人手設計メモリ設計よりも経験からより効果的かつ効率的に学習できることを実証する。安全に開発・展開されれば、ALMAは、適応的かつ継続的な学習者となることを学習する自己改善型AIシステムへの一歩を表すものである。
ツール呼び出し機能を備えたAIエージェントは、間接的プロンプトインジェクション(IPI)攻撃に対して脆弱である。この攻撃シナリオでは、信頼できないコンテンツ内に隠蔽された悪意のあるコマンドが、エージェントを騙して許可されていない行動を実行させる。既存の防御手法は攻撃の成功率を低下させ得るが、過剰防御のジレンマに陥りがちである。つまり、実際の脅威の有無にかかわらず、高コストで常時動作するサニタイズ処理を適用するため、良性のシナリオにおいても有用性やレイテンシが低下してしまう。本研究では、IPIを因果的アブレーションの観点から再検討する。インジェクションが成功すると、ユーザリクエストがエージェントの特権アクションに対する決定的な支持を提供しなくなり、特定の信頼できないセグメント(検索された文書やツール出力など)が不釣り合いに大きな帰属的影響力を及ぼす、という支配権の移行が生じる。この特徴に基づき、我々は選択的防御フレームワーク「CausalArmor」を提案する。CausalArmorは、(i) 特権決定点において軽量なLeave-One-Outアブレーションに基づく帰属分析を計算し、(ii) 信頼できないセグメントがユーザ意図を支配している場合にのみ、標的型サニタイズを発動する。さらにCausalArmorは、事後的連鎖思考マスキングを採用し、エージェントが「汚染された」推論トレースに基づいて行動することを防ぐ。帰属マージンに基づくサニタイズが、悪意のあるアクションが選択される確率の条件付き指数関数的上限を導くことを理論分析により示す。AgentDojoとDoomArenaを用いた実験により、CausalArmorが攻撃的防御手法と同等の安全性を確保しつつ、説明可能性を向上させ、AIエージェントの有用性とレイテンシを維持することを実証する。
間接プロンプトインジェクションは、外部コンテンツに悪意のある指示を埋め込むことでLLMエージェントを脅威にさらし、不正な操作やデータ窃取を可能とする。LLMエージェントは、意思決定のための対話履歴を保存するコンテキストウィンドウを通じて作業メモリを維持する。従来のエージェントは、ツール出力と推論トレースを無差別にこのメモリに蓄積するため、二つの重大な脆弱性が生じる:(1)注入された指示がワークフロー全体に残留し、攻撃者が動作を操作する機会が複数生まれる、(2)冗長で非本質的なコンテンツが意思決定能力を劣化させる。既存の防御手法は肥大化したメモリを所与のものとして扱い、攻撃を未然に防ぐための不必要な蓄積の削減ではなく、耐性の維持に焦点を当てている。 本論文では、明示的なメモリ管理を通じて間接プロンプトインジェクションから防御するフレームワークAgentSysを提案する。オペレーティングシステムにおけるプロセスメモリ分離にヒントを得て、AgentSysはエージェントを階層的に組織化する:メインエージェントがツール呼び出しのためのワーカーエージェントを生成し、各ワーカーは隔離されたコンテキストで動作し、サブタスク用のネスト化されたワーカーを生成可能とする。外部データとサブタスクのトレースはメインエージェントのメモリに入ることはなく、スキーマ検証済みの戻り値のみが決定論的JSONパーシングを通じて境界を越えられる。アブレーション研究では、分離のみで攻撃成功率を2.19%に低減でき、バリデータ/サニタイザを追加したイベント駆動チェックにより、コンテキスト長ではなく操作数に比例するオーバーヘドで防御がさらに向上することを示す。 AgentDojoとASBにおける評価では、AgentSysは攻撃成功率をそれぞれ0.78%、4.25%に抑えつつ、無防備なベースラインと比較して良性タスクの有用性をわずかに向上させた。本手法は適応型攻撃や複数の基盤モデルに対しても頑健性を維持し、明示的なメモリ管理が安全で動的なLLMエージェントアーキテクチャを実現することを示す。コードはhttps://github.com/ruoyaow/agentsys-memory で公開している。
視覚言語モデル(VLM)は、テキストと視覚入力を跨ぐクロスモーダル理解において顕著な性能を達成しているが、既存のベンチマークは主に純粋なテキストクエリに焦点を当てている。現実のシナリオでは、言語は画像に埋め込まれた可視化テキストとしても頻繁に現れるため、現在のVLMがそのような入力要求を同等に扱えるかどうかが問題となる。本論文では、マルチモーダル知覚、推論からユニモーダル理解領域に至る体系的なベンチマークであるVISTA-Benchを提案する。これは、制御された描画条件下で純粋テキスト質問と可視化テキスト質問を対比させることで、可視化テキストの理解を評価する。20以上の代表的なVLMに対する大規模な評価により、顕著なモダリティギャップが明らかになった:純粋なテキストクエリで良好な性能を示すモデルは、同等の意味内容が可視化テキストとして提示されると、しばしば性能が大幅に低下する。このギャップは、知覚的難易度の増加によってさらに増幅され、意味が変化しないにもかかわらず描画の変動に対する感受性が浮き彫りとなる。総じて、VISTA-Benchはこの限界を診断し、トークン化されたテキストとピクセルを跨ぐより統一的な言語表現への進歩を導くための原理的な評価枠組みを提供する。ソースデータセットはhttps://github.com/QingAnLiu/VISTA-Bench で公開されている。
テスト時訓練(TTT)は、推論時に勾配ベースの更新により言語モデルを適応させる。しかし、適応は果たして適切な戦略だろうか?我々は、検証可能な実行基盤タスク(VEG)における計算最適なテスト時戦略を研究する。VEGタスクとは、GPUカーネル最適化のような分野であり、決定論的評価器が密で連続的な報酬信号を提供する。KernelBenchをテストベッドとし、120Bパラメータモデル(LoRA適応済みGPT-OSS-120B)を使用して、我々は以下のことを発見した:最小限の適応(1~5勾配ステップ)よりも、検索が優れている。Best-of-Nサンプリングは、KernelBench L1評価セット全体においてK=64で90%(20タスク中18タスク)のタスク成功率を達成するのに対し、TTTの最良チェックポイントは30.6%(3シード平均)に留まり、TTTの「等価K」は1を下回り、単一サンプル推論よりも悪い結果となった。この失敗モードは過剰先鋭化である:勾配更新は多様性を崩壊させ、最適解を発見するのではなく、凡庸な解へと収束させる。我々の主な貢献は、サプライザル誘導選択である:最高サプライザル(最低信頼度)の正しいサンプルを選択すると、80%の成功率を達成し、最も信頼度の高い選択の50%を30%上回る。これをサプライザル誘導トップ3に拡張すると、オラクル性能に匹敵する100%を達成する。このゼロコスト戦略は、長さ制御分析を通じて検証され、オラクル性能を回復する。密報酬VEGタスクにおいては、計算リソースは勾配適応ではなく、サンプルの多様性とインテリジェントな選択に割り当てるべきである。サプライザル誘導選択の原理は、最適解が分布の尾部に位置する他の実行基盤領域にも一般化可能である。
連続時間生成モデル(拡散モデル、フローマッチング、整流フローなど)は、時間依存のベクトル場を学習するが、通常、タイムステップを独立に扱う目的関数で訓練されるため、推定量の分散が大きく、効率的なサンプリングが妨げられる。従来のアプローチでは、明示的な平滑性ペナルティ、軌道正則化、または修正された確率経路やソルバーによってこの問題を緩和してきた。本研究では、時間的ペア一貫性(TPC)という軽量な分散低減原理を提案する。TPCは、同一の確率経路上でペアとなるタイムステップにおける速度予測を結合し、モデル構造、確率経路、ソルバーを変更することなく、完全に推定量レベルで動作する。理論分析により、TPCが二次の軌道結合型正則化を誘導し、基礎となるフローマッチング目的を保ちながら勾配分散を確実に低減することを示す。フローマッチングにおいてTPCを具体化すると、CIFAR-10およびImageNetの複数解像度でサンプル品質と効率が向上し、同等または低い計算コストで従来手法より低いFIDを達成する。さらに、ノイズ拡張訓練、スコアベースノイズ除去、整流フローを備えた現代的なSOTAスタイルのパイプラインにもシームレスに拡張可能である。
大規模言語モデル(LLM)は、重大な結果が伴う領域で展開が進んでおり、稀ではあるが深刻な失敗が取り返しのつかない被害を引き起こす可能性がある。しかし、従来の評価ベンチマークは、複雑な社会的リスクを平均中心のスカラー値に還元することが多く、分布構造、次元間相互作用、最悪ケースの挙動を見えにくくしている。本論文は、社会的危害の多角的で分布を考慮した評価フレームワークであるSHARP(Social Harm Analysis via Risk Profiles)を提案する。SHARPは危害を多変量確率変数としてモデル化し、バイアス、公平性、倫理、認識的信頼性への明示的な分解を、加算的な累積対数リスクとして再パラメータ化された「失敗の和集合」による集約と統合する。さらに、リスク感応型の分布統計量、特に主要指標としてConditional Value at Risk(CVaR95)を用いて、最悪ケースのモデル挙動を特徴づける。SHARPを11の最先端LLMに適用し、固定されたn=901の社会的にセンシティブなプロンプトで評価した結果、平均リスクが類似しているモデルでも、テールエクスポージャーとボラティリティに2倍以上の差が生じうることが明らかになった。モデル全体を通じて、次元ごとの限界テール挙動は危害の次元によって系統的に異なり、バイアスが最も深刻なテールの重大性を示し、認識的リスクと公平性リスクが中間的な領域を占め、倫理的非整合性は一貫して低かった。これらのパターンは、スカラーベンチマークが混同してしまう、モデル依存の異質な失敗構造を明らかにしている。これらの知見は、LLMの責任ある評価とガバナンスには、スカラー平均を超え、多角的でテールに敏感なリスクプロファイリングに向かうことが必要であることを示唆している。
現代のLLM運用では、安全性ポリシーを大規模に適用することが求められるが、多くの制御手法は推論時介入に依存しており、継続的な計算コストとサービス複雑性を増大させる。アクティベーション・ステアリングは広く利用されているが、ランタイムフックを必要とし、生成回数に比例してコストが増加する。条件付き変種はステアリング適用のゲーティングにより選択性を改善するが、推論時制御パスを残したままである。我々は、選択的拒否を完全にオフライン化できるか否かを問う:カテゴリ特異的拒否のメカニズム的理解を、標準チェックポイントとしてデプロイ可能な回路制約付き重み更新に蒸留できるか?我々はC-Δθ(回路制約付き重み演算)を提案する。これは、(i) EAP-IGを用いて拒否因果計算を疎な回路として局在化し、(ii) その回路のみに制約された重み更新ΔθC(通常パラメータの<5%)を計算する。ΔθCを適用すると、推論時フックなしの差し替え可能な編集済みチェックポイントが得られ、コストを要求毎の介入から一度限りのオフライン更新に移行できる。拒否・有用性ベンチマークにおいて、カテゴリ標的型選択性と能力維持を評価する。
複雑な実世界環境におけるコンピュータ利用エージェント(CUA)の普及に伴い、普遍的な長期的リスクはしばしば深刻かつ不可逆的な結果を招く。既存のCUAガードレールの多くは反応的アプローチを採用し、エージェントの行動を現在の観測空間内にのみ制約する。これらのガードレールは短期的リスク(例:フィッシングリンクのクリック)の即時防止は可能だが、長期的リスクを積極的に回避することはできない。一見合理的な行動が遅延的に高危険な結果を招くケース(例:ログ消去による将来の監査追跡不能化)は、反応的ガードレールでは現在の観測空間内で検知できない。こうした課題に対処するため、我々は予測的ガードレールアプローチを提案する。その核心は、予測される将来リスクと現在の決定を整合させるという考え方に基づく。本アプローチに基づき、リスクと決定のループを確立してエージェント行動の安全性を確保する予測的ガードレールフレームワークSafePredを開発した。SafePredは二つの核心機能を備える:(1)短・長期的リスク予測:安全性ポリシーをリスク予測の基盤として、世界モデルの予測能力を活用し短期的・長期的リスクの意味的表現を生成、高危険状態に導く行動の特定と刈り込みを実現;(2)決定最適化:ステップ単位の介入とタスク単位の再計画により、予測リスクを実践的な安全決定指針に変換。大規模実験により、SafePredが高危険行動を大幅に低減し、97.6%以上の安全性性能を達成するとともに、反応的ベースライン比で最大21.4%のタスク効率向上を実現することを確認した。
表現エンコーダを生成モデリングに活用することは、効率的で高精細な合成への道筋を提供する。しかし、標準的な拡散Transformerはこれらの表現に直接収束しない。近年の研究ではこれを容量ボトルネックに帰属し、計算コストの高い拡散Transformerの幅方向スケーリングを提案しているが、我々はこの失敗が本質的に幾何学的な問題であることを実証する。根本原因として「幾何学的干渉」を特定した:標準的なユークリッド流れマッチングは、表現エンコーダの超球面特徴空間の低密度な内部を確率経路が通過することを強制し、多様体表面を辿らないのである。この問題を解決するため、我々はヤコビ正則化を伴うリーマン流れマッチング(RJF)を提案する。生成プロセスを多様体上の測地線に制約し、曲率に起因する誤差伝播を補正することで、RJFは標準的な拡散Transformerアーキテクチャが幅方向スケーリングなしで収束することを可能にする。我々の手法RJFは、標準的なDiT-Bアーキテクチャ(1.31億パラメータ)を効果的に収束させ、従来手法が収束しなかった状況でFID 3.37を達成する。コード:https://github.com/amandpkr/RJF
大規模言語モデル(LLM)に拡張推論を要する問題すべてで実行させることはコストがかかるが、どの入力が実際に追加の計算資源を必要とするかを判断することは依然として困難である。本研究では、生成前の内部表現からモデル自身の成功可能性が回収可能かどうか、またこの信号がより効率的な推論の指針となり得るかどうかを検証する。数学およびコーディング課題において、生成前の活性化状態に線形プローブを適用し、政策特化的な成功を予測するモデルを訓練した結果、質問の長さやTF-IDFといった表面的特徴を大幅に上回る性能を示した。同一問題に対する人間とモデルの双方の性能データを提供するE2H-AMCを活用し、モデルが人間の困難度とは異なるモデル特有の困難度概念を符号化していること、さらにこの差異が拡張推論に伴い拡大することを明らかにした。これらのプローブを活用し、複数モデル群へのクエリ振り分けを行うことで、MATHデータセットにおいて推論コストを最大70%削減しつつ最高性能モデルを上回る性能を達成できることを実証し、内部表現が人間の困難度直感と乖離している場合でも実用的な効率向上を可能にすることを示した。実装コードはhttps://github.com/KabakaWilliam/llms_know_difficultyで公開している。
属性付きグラスクラスタリング(AGC)は、構造的トポロジーとノード属性を統合し、グラフ構造データの潜在的なパターンを発見する基本的な教師なしタスクである。不正検出やユーザーセグメンテーションなどの産業応用における重要性にもかかわらず、学術研究と実世界への展開の間には大きな隔たりが存在し続けている。現在の評価プロトコルは、小規模で高ホモフィリーな引用データセット、非スケーラブルなフルバッチ学習パラダイム、ラベルが乏しい環境での性能を反映できない教師付き指標への依存に悩まされている。これらの隔たりを埋めるため、我々はPyAGCを提案する。これは、多様なスケールと構造的特性にわたってAGC手法をストレステストするために設計された、包括的でプロダクションレディなベンチマークおよびライブラリである。既存の方法論をモジュール式のEncode-Cluster-Optimizeフレームワークに統一し、初めて、多数の最先端AGCアルゴリズム向けにメモリ効率の良いミニバッチ実装を提供する。我々のベンチマークは、2.7Kから111Mノードに及ぶ12の多様なデータセットを精選し、複雑な表形式特徴と低ホモフィリーを持つ産業グラフを特に組み込んでいる。さらに、従来の教師付き指標に加えて、教師なし構造指標と効率プロファイリングを必須とする包括的評価プロトコルを提唱する。Ant Groupの高リスクな産業ワークフローで実戦検証されたこのベンチマークは、現実的な展開に向けたAGC研究を推進するための、堅牢で再現性が高くスケーラブルなプラットフォームをコミュニティに提供する。コードとリソースは、GitHub (https://github.com/Cloudy1225/PyAGC)、PyPI (https://pypi.org/project/pyagc)、およびドキュメンテーション (https://pyagc.readthedocs.io) を通じて公開されている。
シミュレーションは家庭用ロボットの大規模訓練・評価における重要なツールとなっているが、既存の環境は実世界の室内空間が持つ多様性や物理的複雑性を十分に再現できていない。現在のシーン合成手法では、家具がまばらに配置された室内が生成される傾向にあり、ロボット操作に不可欠な「密集した雑多さ」や「関節構造を持つ家具」、さらに物理特性が欠如している。本論文では、自然言語プロンプトからシミュレーション対応の室内環境を生成する階層的なエージェントフレームワーク「SceneSmith」を提案する。SceneSmithは、建築レイアウト、家具配置、小物の追加という段階を経てシーンを構築し、各段階はデザイナー、批評家、オーケストレーターというVLMエージェント群の相互作用として実装される。本フレームワークは、静的オブジェクトのためのtext-to-3D合成に基づくアセット生成、関節オブジェクトのためのデータセット検索、物理特性推定を緊密に統合している。SceneSmithは従来手法に比べて3~6倍のオブジェクトを生成し、オブジェクト間の衝突率は2%未満、物理シミュレーション下でのオブジェクト安定率は96%に達する。205名の参加者によるユーザスタディでは、ベースラインと比較して、平均リアリズムで92%、平均プロンプト忠実度で91%の勝率を達成した。さらに、これらの環境がロボットポリシー自動評価のエンドツーエンドパイプラインに利用可能であることも実証する。