翻訳付きの日次キュレーションされたAI研究論文
本稿では、大規模言語モデル(LLMs)における潜在思考表現のための公理的評価フレームワークを提案する。本フレームワークは、下流ベンチマークスコアから独立した指標から構成され、ベンチマーク精度では隠蔽される表現障害を明らかにする。既存の評価は表現品質とモデル容量を混同しているため、障害の原因を、それを処理するモデルではなく表現に帰属させることができない。我々は4つの機能的公理(因果性、最小性、分離性、安定性)を形式化し、それぞれについて、下流精度とは独立に表現から直接計算される量的尺度を定義する。23の推論タスク(例:空間推論、事実QA)にわたってオープンウェイトLLMを監査した。その結果、いずれの候補も4つの公理を同時に満たさないこと、表現はタスクタイプを確実に区別できるが、同一タスク内の2つの質問は区別できないこと、そして表現は入力埋め込みに既に存在する情報を超えてほとんど情報を符号化しないことが明らかになった。この障害は高密度、推論蒸留、およびRL訓練モデルファミリーにわたって一貫しており、モデルサイズや訓練手順の性質ではなく、構造的なギャップであることを示している。
ビデオ生成モデルは、具現化された世界シミュレーションの有望なパラダイムとして登場しました。しかし、汎用ドメインのビデオ生成器もロボット固有データでファインチューニングされたモデルも、不連続な動作軌跡や一貫性のないロボットと物体の相互作用など、物理的に非現実的な操作を生成することがあり、これがワールドシミュレータとしての信頼性を制限しています。広範な実験を通じて、このような物理的不安定性は主に二つの要因に起因することがわかりました。それは、移動物体の変形と、相互作用するエンティティ間の非現実的な時空間相関、特に接触時のものです。この観察に基づき、我々はPhysisForcingを提案します。これは、ピクセルレベルとセマンティックレベルの特徴の共同最適化を通じて、物理情報を含む領域に監督を集中させることで物理的一貫性を強化する、スケーラブルなトレーニングフレームワークです。このフレームワークは、参照点軌跡を用いてDiT特徴を監視するピクセルレベルの軌跡アライメント損失と、凍結されたビデオ理解エンコーダから抽出された領域間関係とDiT特徴を一致させるセマンティックレベルの関係アライメント損失から構成されます。R-Bench、PAI-Bench、EZS-Benchにおける広範な実験により、PhysisForcingが強力なベースラインに対して一貫して具現化ビデオ生成を改善し、R-BenchにおいてWan2.2-I2V-A14BとCosmos3-Nanoのベースモデルをそれぞれ22.3%と9.2%(バニラファインチューニングに対しては7.1%と3.7%)向上させ、Cosmos3-Nano変種が最高の総合スコアを達成したことが示されました。生成を超えて、WorldArenaアクションプランナープロトコル下のワールドモデルとして、閉ループ成功率を16.0%から24.0%に引き上げ、さらに下流のポリシー成功率を改善しており、物理的に整合されたビデオモデルがロボット操作のためのより強力な表現を生み出すことを示しています。
本論文では、Qwen-Image-2.0-RLを提案する。これは、人間からのフィードバックを用いた強化学習(RLHF)とオンポリシー蒸留(OPD)を適用し、Qwen-Image-2.0拡散モデルの視覚品質と指示追従能力の両方を改善する後処理パイプラインである。信頼性の高い報酬信号を提供するため、ポイントワイズスコアリングパラダイムと思考連鎖推論を用いて視覚言語モデルを微調整し、タスク固有の複合報酬モデルを構築する。テキストから画像への生成において、報酬モデルは整合性、美的品質、肖像忠実度の各次元をカバーする。画像編集タスクにおいては、報酬システムは指示追従精度と顔の同一性保存に対処する。この報酬システムに基づき、事前学習知識を保持するためのハイブリッド分類器不要ガイダンス(CFG)戦略、グループ内報酬範囲フィルタリングによるプロンプトキュレーション、およびカテゴリ別報酬重み調整を組み込んだ、スケーラブルなGRPOベースのRL訓練フレームワークを開発する。T2Iと編集のためのタスク特化型RLポリシーを統合するため、最終訓練段階としてオンポリシー蒸留を提案する。これは、軌跡レベルの速度マッチングを通じて複数の教師モデルを単一の生徒モデルに集約するものである。広範な評価により、Qwen-Image-2.0-RLはQwen-Image-Benchで総合スコア57.84(ベースモデル比+2.61)、テキストから画像生成のアリーナでElo評価値1193(+78)、画像編集のアリーナで1349(+93)を達成し、美的品質、プロンプトへの忠実性、編集精度において一貫した改善を示すことが確認された。
我々は、平行グリッパを備えた両腕ロボットに対して、人間の行動から新たな操作スキルを学習可能かどうかを検討する。人間の行動データは低コストで豊富かつ多様であり、ロボット学習のスケールアップにおいて最も有望な資源の一つである。しかしながら、スキルを人間からロボットへ転移することは依然として困難である。従来の研究の多くは人間を単なるもう一つの両腕6自由度の身体とみなし、手の姿勢推定はノイズが多く、人間の指の接触パターンは平行グリッパのものと根本的に異なる。したがって、人間のデータから回転を含む行動信号を学習することは最適ではなく、代わりに我々は橋渡し的行動表現として、初期ヘッドカメラフレーム内での相対的な手首並進(人間とロボットに共有される行動空間)を提案する。異なる身体における特定の行動成分の欠落可能性に対処するため、我々はπ_0に類似した、インターリーブ型行動トークンとアテンションマスキングを備えた視覚-言語-行動モデルを構築する。新規な両腕操作タスク群において、我々の橋渡し的行動は、ノイズの多い6自由度の人間行動よりもはるかに効果的に人間の操作知識をロボットに転移し、かつ人間データ量に対してスケールする。
言語およびマルチモーダル分野における基盤モデルは、異種データを統一された定式化の下で整列させ、大規模に学習することで強力な汎化を実現する。本報告では、このスケーリング手法がロボット操作にも適用可能であり、真の汎化を達成できるかを検討する。これは困難である。なぜなら、テキストとは異なり、操作データは本質的に異種であり、収集コストが高く、多様性も限られているため、整列とスケーリングを同時に実現することが難しいからである。我々は、Qwen-VLを基盤とした汎化可能な視覚-言語-行動基盤モデルであるQwen-RobotManipを提案する。Qwen-RobotManipは、操作の表現・動作・行動の次元にわたる統一的な整列フレームワークを導入し、大規模なマルチソース学習を矛盾させることなく統合的に行えるようにする。この整列能力により、Qwen-RobotManipは、従来の学習手法では持続できなかった規模の操作データを吸収することが可能となる。人間からロボットへの合成パイプラインは、15のプラットフォームにわたるロボット軌跡へと自己中心的な手のデモンストレーションを変換し、厳格なキュレーションパイプラインが異種データセットを調和させる。独自データ収集を行わず、オープンソースのデータセットと人間のビデオのみを用いて、Qwen-RobotManipは約38,100時間の事前学習コーパスを構築し、ゼロショット命令追従、摂動に対するロバスト性、反応的なエラー回復、異なる身体性間の転送などの創発的な汎化能力を示す。標準的なベンチマークは事前学習の品質を捉えきれないことが判明したため、代わりにRoboCasa365、LIBERO-Plus、EBench、RoboTwin-Clean2Rand、RoboTwin-IF、RoboTwin-XEを含むOOD設定を採用した。Qwen-RobotManipは、π0.5を含む従来の最先端モデルをすべてのOOD設定で大幅に上回り、RoboChallengeで1位(20%の相対的改善)を獲得し、AgileX ALOHA、Franka、UR、ARXなどの実ロボットプラットフォームでも検証された。
エージェント型ナビゲーションシステムには、推論時に観測戦略を外部から再構成可能な基本ナビゲーションモデルが必要である。なぜなら、指示追従、物体探索、目標追跡、自動運転は同一の認識・計画バックボーンを共有する一方で、視覚ストリームの処理に根本的に異なる戦略を要求するからである。本稿では、この課題に対処するために、Qwen-RobotNav上に構築されたスケーラブルなナビゲーションモデルであるQwen-RobotNavを提案する。本モデルは、ナビゲーション動作を選択する複数のタスクモードと、視覚履歴の符号化方法を制御する調整可能な観測パラメータ(トークンバジェット、カメラごとの重みなど)という、補完的な二つの次元を持つパラメータ化インターフェースを備える。すべてのパラメータを訓練時にランダム化することで、Qwen-RobotNavは、Qwen-RobotNavのバックボーンにアーキテクチャ上の変更を一切加えることなく、任意の推論時設定に対してロバストとなる。Qwen-RobotNavは1560万サンプルで訓練され、視覚言語データとの共訓練により、軌跡のみの訓練で観測される反応的な行動系列マッパーへの崩壊を防止する。このパラメータ化インターフェースにより、Qwen-RobotNavはエージェント型システムの自然な構成要素となる。長期的シナリオでは、上位プランナーが目標をサブタスクに分解し、エピソード途中でQwen-RobotNavのタスクモードとコンテキスト戦略を動的に切り替えることで、同一モデルの繰り返し呼び出しから複雑な行動を構成する。広範な実験により、Qwen-RobotNavは主要なナビゲーションベンチマークで新たな最先端結果を達成する。本モデルは20億から80億パラメータへの良好なスケーリングを示し、共同マルチタスクトレーニングによりタスクファミリ間で転移可能な共有空間計画基盤を発達させ、多様な環境における実世界ロボットへの強力なゼロショット汎化を示す。
言語モデル(LM)は、語彙サイズに比例してスケールする埋め込み行列を使用してトークンを表現する。パラメータ占有量を抑えるため、従来研究ではエンコーダのみのモデルにおいて複数のトークンを単一ベクトルにハッシュ化する手法が提案されている。この手法はパラメータ効率に優れるものの、多対一の衝突が生じるため因果的LMでの利用は不可能である。本論文では、ハッシュベースの自己回帰を可能とする新しいフレームワーク「MultiHashFormer」を提案する。各トークンは、複数の独立したハッシュ関数により生成された短い離散的ハッシュIDの連続である固有のハッシュ署名として表現される。ハッシュエンコーダはこの署名を単一の潜在ベクトルに圧縮し、Transformerデコーダで処理する。その後、ハッシュデコーダは次トークンのハッシュ署名を生成し、テキストに逆写像される。本手法を100M、1B、3Bのパラメータ規模で評価し、MultiHashFormerが複数のベンチマークにおいて標準的なTransformer LMを一貫して上回ることを実証する。さらに、本モデルは多言語語彙拡張をパラメータ占有量一定で処理でき、一切の修正を必要としないことを示す。
ビジョン・ランゲージモデル(VLM)は、消費者向け、医療、金融、エンタープライズアプリケーションへの導入が進んでいる。この幅広い展開は安全性の表面を拡大する。リスクはマルチモーダルな質問応答、アシスタント応答、クロスモーダル合成から生じる可能性があり、一方でモデレーションポリシーは製品、地域、展開段階によって異なる場合がある。既存のガードレールのほとんどは、固定された分類法に依存するか、限られた相互作用設定のみを対象としており、展開時に安全性ルールが変更された場合の適応性が制限される。本稿では、マルチモーダル会話における安全性評価のためのポリシー適応型マルチモーダルガードレールモデルファミリーであるSingGuardを提案する。SingGuardはアクティブポリシーを実行時入力として扱う。すなわち、自然言語ルールが与えられると、アクティブポリシーに照らして対象コンテンツをルールごとにチェックし、安全性ラベルとトリガーされたルールの両方を予測する。効率性と解釈可能性のバランスを取るため、SingGuardは高速、ハイブリッド、低速の推論レジームを、直接的な安全性判断からポリシーに基づく熟考に至る高速‐低速推論スペクトルに沿ってサポートする。さらに、高速低速分離型強化学習を用いてこの振る舞いを最適化する。また、マルチモーダルガードレールベンチマークであるSingGuard-Benchを導入する。これは56,340のサンプルを含み、マルチモーダルQA、敵対的攻撃、動的ルール評価設定(各モダリティ単独では無害だが、その構成が安全でない意図を示唆するクロスモーダル共同リスク事例を含む)において、80以上の細粒度リスクタイプをカバーする。6つのベンチマークファミリー(35データセット)において、SingGuardは各ファミリーで最先端の平均F1を達成する。動的ルール評価では、実行時ポリシー変更下でのポリシー追従精度が0.6465から0.7415に向上することがさらに示される。コードはhttps://github.com/inclusionAI/Sing-Guardで入手可能である。
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)は、役割特化と構造化された相互作用を通じて複雑なタスクを解決する有望な枠組みを提供する。しかし、その性能はしばしば調整不足、さらに根本的にはエージェント間のきめ細かなクレジット割り当ての欠如によって制限される。既存のアプローチは通常、粗いフィードバックに依存しており、どのエージェントまたは相互作用ステップがエラーの原因であるかを特定することが困難である。本論文では、マルチエージェントシステムのきめ細かな帰属と最適化のためのアプローチであるGradient-Based Connections(GBC)を提案する。GBCはMASを計算グラフとしてモデル化し、勾配ベースの接続重みを導入して、各エージェントの出力が下流のエージェントに与える影響をトークンレベルで定量化する。帰属グラフを構築し、タスク固有の損失信号を逆方向に伝播させることで、本手法はエラーソースの精密な特定と対象を絞ったプロンプト最適化を可能にする。さらに、プレフィックスベースの勾配計算を活用した効率的な実装であるAgentChordを開発する。MultiWOZおよびτ-benchでの実験により、GBCはマルチエージェントの性能を向上させ、強力なシングルエージェントおよびマルチエージェントのベースラインを上回り、帰属の質が高いほど最適化の効果が大きいことが示された。コードは以下から入手可能:https://github.com/yxc-cyber/AgentChord。
オープンワールド環境で動作するロボットは、位置推定、空間推論、ナビゲーション、および長期計画をシームレスに統合する必要がある。専門モデルは個々のタスクに優れているが、マルチモデルスタックを展開することは計算コストが高く、連鎖誤差が発生しやすい。本稿では、これらの能力を単一の基盤モデルに統合した、統一された身体性を持つ汎用モデルVestaを提案する。我々のアプローチは、空間的接地を誘発するように設計された多様で大規模なキュレートコーパスと、長期的な時間軸にわたる推論を可能にするシンプルなマルチモーダルメモリハーネスを組み合わせる。多様なベンチマークにおいて、Vestaは個々のSOTAベースラインを平均20%以上上回り、カテゴリ別最良ベースラインのアンサンブルを10%以上上回る。これにより、汎用モデルが専門家モデルに匹敵または凌駕できることを実証する。記憶と推論を必要とする実世界のロボットタスクにおいて、Vestaはタスク成功率を35%以上向上させる。したがって、我々の研究は、単一の汎用モデルが専門家モデルの組み合わせに対する実現可能でスケーラブルであり、おそらくより望ましい代替手段であることを示す。
テキストデトックス(有害・攻撃的なコンテンツの自動検出と軽減)は、オンラインコミュニティの安全性を確保し、ユーザーを保護するために不可欠である。しかし、タタール語のような低リソース言語については、これまで研究がほとんど進んでいない。本論文では、タタール語におけるテキストデトックスのための新たな最先端システムであるTatoxaを提案する。比較実験の結果、提案手法は主要な品質指標において、既存のオープンソースおよびプロプライエタリな商用大規模言語モデル(LLM)を上回ることが示された。また、低リソース環境でのファインチューニングと評価を目的とした、タタール語のテキストデトックス用の新しいデータセットも導入する。さらに、言語間転移実験から、文化的に近いロシア語を含む他言語からの転移は、大規模なロシア語コーパスが利用可能な場合でも、タタール語ネイティブデータでの学習よりも著しく性能が低いことが明らかになった。
知識ベースの視覚的質問応答(KB-VQA)では、画像理解と外部知識を組み合わせるモデルが求められる。従来の手法の多くは、固定された検索器と静的なtop-k設定を用いた「検索→生成」パイプラインを採用しており、推論中に適応的ではない。本稿では、KB-VQAのための漸進型マルチモーダル検索エージェントProMSAを提案する。画像と質問のペアが与えられると、エージェントは明示的なツール呼び出し予算の下で、画像検索、テキスト検索、または停止の選択を反復的に行い、重複検索を回避するために重複排除を実施する。訓練においては、まず拒否サンプリングを用いた教師ありファインチューニング(SFT)により、有効なツール使用形式を学習し、その後、生成長さとツール対話深度の両方で更新を正規化する系列レベルの強化学習目的関数TN-GSPOを用いてエージェントを最適化する。E-VQAおよびInfoSeekでの実験により、強力なRAGベースラインやエージェントベースラインを一貫して上回り、検索精度およびエンドツーエンド精度が向上した。コードはhttps://github.com/DingWu1021/Promsaで公開されている。
Voice agents face a fundamental tension: the reasoning, retrieval, and tool use that make foundation models capable are iterative and slow, while conversational interaction demands responses on a millisecond timescale. Smaller, real-time models meet the latency bar but cannot match foundation models on complex tasks, leaving current voice agents to trade away either responsiveness or capability. We introduce conversational infill, where a small talker model both immediately generates contextually grounded responses to hide the latency of an external reasoner model and fluently integrates streamed reasoner knowledge into its responses during inference. We curate a 290,571-example synthetic dataset spanning six domains and demonstrate that this task is learnable across seven widely used small language models ranging from 135M to 1.7B parameters. Our system implementation, ConvFill, sustains millisecond-level time-to-first-response while closing the accuracy gap to within 6.3% of the corresponding frontier reasoner performance. In a live user study (n=18) with talker deployments running on an Apple M2 SoC, participants rank ConvFill on par with frontier models overall, prefer it for retrieval-heavy tasks, and rate it significantly more responsive. These results show that conversational infill unlocks a new point on the latency-capability Pareto frontier, offering a practical path toward voice agents that are both responsive and highly capable. Code, models, and datasets are available at https://github.com/vysri/conversational-infill.
Web-agentベンチマークは圧倒的に深さを測定する——一連の制約の背後にある一つの不明瞭な回答を固定する——一方、幅、すなわち閉じた集合を網羅的に列挙し各項目の属性を埋めることは、特に英語以外ではほとんど評価されていない。幅の構築もまた困難である。金標準セットが完全であり各セルが正しいことを保証することは、単一の回答をチェックするよりもはるかにコストがかかる。本稿では、自動化された合成・検証パイプラインによって構築された韓国語幅探索ベンチマークであるKo-WideSearchを導入する。各タスクはセットの親エンティティ(テレビシーズン、王朝、リーグ、行政区画、選挙)を指定し、その完全なメンバーシップと項目ごとの属性テーブルを要求し、Item-F1、Column-F1、Row-F1で採点される。本ベンチマークは190のエンティティと16のカテゴリにわたる228のテーブルから構成され、3つの難易度階層に分かれている。難易度は、私が独立に調整する2つの構造的ノブ(テーブル幅と2次元複合キー)によって設定され、階層をまたがって直積メンバーシップが0%から100%に増加する。単一の正規化対応比較器が金標準構築と採点の両方で共有されているため、安定した日付やカウント列が書式のみに基づいて過剰に落とされることはない。20のWebエージェント全体で、失敗は一貫している。エージェントはセットを復元できるが行は復元できない(例えばItem-F1 92.8に対してRow-F1 53.7)。ノブが厳しくなるにつれて精度は着実に低下し、検索の増加も支出の増加もその差を埋められない。セルごとに分解すると、難しい部分は正しい値を見つけることであり、書式設定ではない。自由形式の自由記述セルが最も失敗し、日付や名前などの標準的な回答があるセルは通常正しく出力される。
実世界におけるロボットポリシーの訓練と評価はコストが高く、スケールさせるのが困難です。本稿では、SimFoundryを紹介します。これは、映像からゼロショットで実世界からシミュレーションへのシーン構築を行う、モジュール型かつ自動化されたシステムです。SimFoundryは、シミュレーション対応のデジタルツインを生成し、オブジェクト、シーン、タスクの編集をサポートすることで、多様なデジタルカズン(再構築された実世界シーンのアフォーダンスを保持したバリエーション)の自動生成を可能にします。SimFoundryのデータで訓練されたポリシーは、多段階操作、関節物体とのインタラクション、両腕によるインタラクションを伴う困難な実タスクにゼロショットで転移し、そのデジタルカズン(元のシーン、オブジェクト、タスクのバリエーション)は、新たな実世界条件への汎化を促進します。7つの操作タスクと5つのポリシーアーキテクチャにわたって、SimFoundryのシミュレーション評価は実世界の性能を強く予測し、平均ピアソン相関係数0.911、平均最大ランキング違反0.018を示しました。シミュレーションで訓練されたポリシーを実世界でゼロショット評価した場合、シミュレーション内でオブジェクト、シーン、タスクのカズンを用いて訓練されたポリシーは、タスク成功率の平均向上率がそれぞれ17%、21%、40%を示しました。詳細はhttps://research.nvidia.com/labs/gear/simfoundry/をご参照ください。
エージェントがテスト時に世界とのインタラクションから継続的に学習するためには、効果的に探索し、新たな世界知識やスキルを獲得し、関連するエピソード経験を保持し、長期的な計画を立案する能力が必要である。これらのテスト時継続学習エージェントの鍵となる能力を評価するために、我々はAgentOdysseyを導入する。これは、豊富なエンティティ、世界のダイナミクス、長期的タスクを備えたオープンエンドのテキストゲームを手続き的に生成する新しい評価フレームワークである。重要な点として、AgentOdysseyは、学習がテスト時には行われないという従来の機械学習の前提を超え、エージェントをデプロイメント全体を通じて学習と推論が交互に行われる継続的かつ長期的な設定に置く。さらに、我々はゲームの進捗だけでなく、世界知識の獲得、エピソード記憶、物体と行動の探索、行動の多様性、モデルコストに関する診断テストも提供する多面的な評価方法論を提案する。生成されたゲームにおいて多様なエージェントパラダイムを評価する。実験結果は、エージェントの重要な能力における重大な限界と、それらの意味のある地平に影響を与える要因を明らかにする。性能はより強力なベースモデルとともに拡大するものの、最良のエージェントでさえ人間の性能には遠く及ばず、改善の余地が大きく残されている。エージェントメカニズムの中では、短期記憶が複数のエージェントパラダイムに利益をもたらし、エージェントのテスト時訓練の重要な構成要素であることが判明した。
人工知能は科学的発見に革命をもたらし、仮説生成から数学的定理の証明に至るまであらゆるプロセスを加速している。しかし、この急速な加速はシステム上の課題を生み出している。すなわち、従来の人間によるピアレビューでは、AI支援科学の流入に追随できる規模に拡張できないのである。最終的にこの緊張関係を解消するには、検証とレビューのプロセス自体を加速するためにもAIを活用する必要がある。この移行に関する議論を枠組み化するため、我々は科学的評価におけるAIと人間の協働の4段階の進行度からなる分類法を提案し、各段階に伴う様々なトレードオフについて論じる。 この未来への一歩として、我々は深い科学的レビューと検証のために構築されたエージェント型AIフレームワークであるPaper Assistant Tool(PAT)を導入する。PATは科学的原稿全体を入力として取り込み、理論的結果のチェック、実験の検証、改善点の提案、潜在的な欠陥の特定など、包括的な評価を生成する。推論スケーリング技術を活用することで、PATは単一のモデル呼び出し単独では発見できないより深い問題を特定することが可能となり、SPOTベンチマークにおける数学的誤りのzero-shot再現率を34%改善する。2つの主要なコンピュータサイエンス会議(STOCおよびICML)において、著者向けの投稿前ツールとしてPATのパイロット展開を行った結果、重要な誤りを特定し、研究論文に対する実質的な改善を提案できることが実証された。PATはエラーを早期に発見することで、査読者にかかる認知的負担を軽減しつつ、レビュープロセスの結果に対する彼らの管理権を維持する。
視覚言語行動(VLA)モデルは多様な操作タスクに汎化できるが、模倣学習に基づく方策は累積する実行誤差により、精密な物理的相互作用において脆弱なままであった。純粋にシミュレーションで訓練された強化学習方策は、実世界のVLAのロバスト性をゼロショットで向上させることができるか?凍結されたVLAの上に修正方策を学習する残差RLは自然な枠組みを提供するが、既存手法は根本的なシミュレーションから実世界へのジレンマに直面する。すなわち、特権状態手法は展開のために損失あり蒸留を必要とし、画像ベース手法は視覚領域ギャップに悩み、実世界RLはコストが高く安全でない。本稿では、オブジェクト中心の残差RLフレームワークを提案する。これにより、物体姿勢を用いてVLAの行動を洗練し、シミュレーションと実世界の間で一貫して転移可能なコンパクトな観測空間を実現する。さらに、二つの領域を整合させるため、同一の遠隔操作デモをシミュレーションで再生し、実世界VLAのシミュレーション対応版を訓練する。残差RL方策は、姿勢ノイズ注入とドロップアウトを用いてシミュレーションでのみ訓練され、実ロボットにゼロショットで転移される。実機のFranka Research 3 (FR3)ロボットを用いた5種類の操作タスクにおいて、本手法は成功率を42%から76%へとゼロショットで向上させる。さらに、改善されたロールアウトを再利用して、追加の遠隔操作なしにベースVLAを自己改善のために再訓練することも可能である。プロジェクトページ: https://www.microsoft.com/en-us/research/articles/object-centric-residual-rl/
私は、ICRA 2026の二腕衣服折りたたみコンペティションであるLeHome Challenge 2026に対する自身のソリューションを説明する。本システムは、オンライン(シミュレーション)ラウンドでは62チーム中1位、実世界決勝では2位を獲得した。本手法は、強化学習ループを用いてビジョン・ランゲージ・アクション(VLA)ポリシーを改善するものである。このポリシーはそれ自体が価値関数として機能し、行動を予測する同一のネットワークが、成功確率、進捗、およびタスクに関連するいくつかの将来量も同時に予測する。これらの予測は、アドバンテージ推定、リアルタイムの失敗検出、および候補選択の駆動に使用される。本研究は主に既存の強化学習のアイデアを再構成し、以下のような工学的および最適化的な貢献を組み合わせたものであり、これらは一つのレシピとして、あるいは個別に使用することが可能である:フローマッチングVLAのためのAWR+RECAPの組み合わせ;HuggingFace Hubを介した非同期分散型トレーニング/ロールアウトパイプライン;トンプソンサンプリングによる推論時ハイパーパラメータ最適化;カメラキャリブレーションツール、強力なデータ拡張、およびDAgger風のHILデータ収集を備えたSim-to-Realレシピ。
ピクセル空間連続トークン自己回帰(AR)生成は、画像を直接生のピクセルパッチの系列としてモデル化し、離散的なトークン化や個別に事前学習されたトークナイザを不要とする。しかし、高次元パッチ生成による大きな単一段階誤差と、教師強制訓練による訓練-推論ギャップ(これにより誤差がAR段階で蓄積する)という、結合した二つの課題に直面する。x予測や入力ノイズ注入などの既存の改善策はこれらの問題を部分的にしか緩和しない。厳密なロールアウト訓練は推論時の条件により適合するが、逐次的なサンプリングが著しく低速なため非現実的である。我々は、これら二つの課題を同時に扱うスケーラブルな枠組みである並列ロールアウト近似(PRA)を提案する。PRAは高次元ピクセルパッチの代わりに低次元の中間状態を生成し、それをピクセルデコーダでピクセル空間トークンに戻すことで、ピクセル入力・ピクセル出力のARインタフェースを維持する。また、推論時と同一の中間状態-ピクセル経路を通じて推論に類似したピクセル入力を位置ごとに独立に構築し、推論時のロールアウトで遭遇するピクセルフィードバックインタフェースを近似しつつ、並列的な教師強制訓練を保持する。256×256解像度のクラス条件付きImageNet-1K生成において、135MパラメータのPRA-SはFID 2.58を達成し、従来の10億スケールのピクセル空間AR結果である3.60を上回った。511MパラメータのPRA-LへのスケーリングによりFIDは1.94に向上し、ピクセル空間ARモデルの中で新たな最先端を確立した。生成性能に加え、PRAは他のARや拡散ベースラインよりも高いImageNet分類プロービング精度を達成し、統一的なピクセル空間画像生成と理解への可能性を示している。
大規模言語モデル(LLM)を実運用環境で効率的に展開するには、精度とコストのトレードオフが生じる。多くの場合、運用者は単一のモデルをデフォルトで使用するが、そのモデルは簡単なクエリに対しては高コストとなり、難しいクエリに対しては性能不足となる。この課題に対処するため、本稿では2段階のカスケード方式を提案する。第1段階では、受信したクエリをクラスタリングし、各クラスタを最も費用対効果の高いモデルに割り当てる。このルーティングプロセスのコスト予算は、解釈可能なハイパーパラメータによって設定され、オフラインで調整される。第2段階では、品質推定(QE)カスケードを追加する。第1段階の出力が低品質と判断された場合、クエリはより強力なモデルにエスカレーションされる。これにより、困難または低信頼度のケースのみが高コストのモデルに送られる。テストデータセットにおいて、本カスケードシステムは最も強力なモデルの精度の97~99%を維持しつつ、出力トークンあたりの時間(TPOT)を削減する。本方式はタスク正解ラベルのみを必要とし、モデルプールの変更にも手動再設定なく適応可能である。
動画生成モデルは動的環境をシミュレートすることを目指しており、現在いくつかのベンチマークがフレーム間のメモリ一貫性を評価している。しかし、ほとんどのベンチマークは対象が視界内にある間のみ一貫性を評価しており、物体を視野外に出すものは、遮蔽中に何も変化しない静的シーンを評価するに過ぎない。このギャップを埋めるために、我々はMemoBenchを導入する。これは動的に変化する環境における消失・再出現パラダイムに基づく診断用ベンチマークである。対象物体は物理的プロセスを経て視界から消失し、再出現時には更新された状態で正しく復元されなければならない。我々は合成シーンと実世界シーンにわたる360個の正解クリップを厳選し、四つの診断柱にわたって自動評価指標とVQAベースの評価を組み合わせた評価スイートを設計した。八つの最先端モデルの評価により、消失・再出現パラダイム下でのメモリ一貫性に関する重要な知見と未解決の課題が明らかになった。
強化学習(RL)による事後学習は、フローベース生成器の報酬アライメントを改善するが、しばしば知覚品質を報酬代理では捉えられない形で劣化させる。我々はこのドリフトの単純な構造的特徴を特定した。すなわち、三つの事後学習手法(NFT、AWM、DPO)にわたり、RL微調整により各ステップの速度ノルム|v_θ|が基準と比べて5~15%増大するというものである。このノルム膨張の一種は、分類器フリーガイダンス(CFG)において研究されており、推論時に速度を基準ノルムに再スケーリングすることで生じるアーティファクトを軽減できる。しかし、この推論時補正はRLにはそのまま適用できない。v_θを|v_{ref}|に合わせて再スケーリングしても、報酬は改善されず品質劣化も修正されない。なぜなら、膨張はモデルの重みに共適応しているからである。さらに、随伴感度解析により、速度の大きさの再スケーリングはバッチレベルで一貫した一次の報酬信号を持たず、ノルム膨張の抑制が報酬を一貫して保持する成分を除去する可能性は低いことが示される。推論時の再正規化が失敗し、ノルム抑制に報酬コストが伴わないことから、訓練時の介入が適切な戦略となる。これらの知見は、|v_θ|が|v_{ref}|を超えた場合のみ活性化し、任意の速度局所的な基底損失と加法的に合成されるヒンジペナルティである\methodnameを動機づける。二つの基底モデル、三つの事後学習手法、二つの報酬代理にわたり、\methodnameは報酬を維持しつつ、MLLMが評価する画像品質とフォレンジックリアリズムを一貫して改善し、その効果は少ステップ推論で増幅され、早期停止では説明できない。
LLMベースのコードエージェントはキーワード検索を通じてリポジトリを探索するが、ソフトウェアが実際にどのように動作するかを定義する呼び出しグラフ、継承階層、設定依存関係などの構造的関係を見逃している。このため、エージェントのナビゲーションは確率的となり、実行間で再現することが困難になる。我々は、軽量な静的解析がこれらのエージェントに対して決定論的アンカーを提供できるかどうかを調査する:確率的探索を制約しナビゲーションをより予測可能にする、プレーンテキストコメントとして注入される安定した構造的事実である。OpenAIのCodexという強力なベースラインから出発し、異なる粒度の構造アノテーションを体系的に注入し、局所化、軌跡動作、実行間の安定性に対する効果を測定する。我々の研究は、決定論的アンカリング効果と呼ぶものを特定する:静的構造はエージェントを「賢く」することよりも、そのナビゲーションを規律正しく再現可能にすることによってより効果を発揮する。この発見を裏付ける3つの観察結果がある:(1) アンカリングは機能する:軽量な呼び出し/継承トポロジーは関数レベルの局所化を向上させ(+2.2pp Func@5)、軌跡を短縮する(-1.6インタラクションラウンド);(2) アンカリングは規模に敏感である:最適な粒度と方向性はリポジトリの特性に依存し、より密なセマンティクスは収穫逓減を示し、ハブ集中型プロジェクトは前方エッジなしで「自分を呼び出すもの」を明らかにする逆方向のみのリンクから恩恵を受ける;(3) アンカリングは安定化する:タグはリンク追従率を0.15-0.18から0.21-0.24に引き上げ、実行間のばらつきをほぼ半減させ、中規模リポジトリにおいて単一実行の信頼性を向上させる(Pass@1 +3.4 pp)。その代償として入力トークンが約10%増加する。これらの観察結果は実用的なガイドラインを示唆する:中規模プロジェクトでは軽量トポロジーをデフォルトとし、大規模リポジトリでは前方エッジを削減し、暗黙的依存関係のケースには密なタグを留保する。
スパース注意機構は長いコンテクストの推論コストを削減できるが、ほとんどの派生手法は新たなアーキテクチャコンポーネントを導入する。本稿では、アーキテクチャの変更を必要としない、よりシンプルなスパース注意機構であるSimplified Sparse Attention(SSA)を提案する。具体的には、まず要約トークン(gist tokens)をインターリーブした系列で継続事前学習を実施する。標準的な次トークン損失は通常通り最適化するが、要約トークンには注意マスクを用いて言語モデルが注目できるコンテクストの範囲を制限する。これにより、各チャンクの重要な情報を要約トークンに集約するようモデルに学習させる。推論時、SSAは現在のクエリと少数の要約トークン間の注意を介してチャンクをスコアリングし、上位kチャンクに対応する生トークンを再導入して選択的に展開する。クエリは要約トークンとのみスコアリングされるため、フルKVキャッシュに対する単純なスコアリングに伴うメモリ帯域幅コストを回避でき、スパース注意手法で用いられる補助KVキャッシュのアプローチも必要としない。LongBenchにおいて、SSAは同一圧縮率のもとで圧縮ベースラインおよび推論時スパース注意ベースラインを一貫して上回る。さらに顕著なことに、検索拡張生成(RAG)において、SSAは継続事前学習後、フル注意機構を5.7ポイント以上上回ることさえある。これは、SSAの選択的展開がクエリに関連するチャンクに注意を集中させ、ノイズを効果的に除去する能力に起因する。SSAはさらに階層的なgist-of-gistバリアント(H-SSA)に拡張され、最大32倍の高圧縮率において対数線形の復号化複雑性を達成しつつ、精度を維持または向上させる。コードはhttps://github.com/yuzhenmao/simplified-sparse-attention/で入手可能である。
トークン化は、Transformerベースの基盤モデルに科学データを適応させる上で中心的な役割を果たすが、学習された表現への影響は十分に理解されていない。我々は、天体画像を対象とした統一的なTransformerフレームワーク内で、Affine、AIM、JetFormer、VQ-VAEの4つのトークン化戦略を比較する。DESI Legacy Surveyからの64万個の銀河画像と共通のAstroPTバックボーンを用いて、各手法を再構成品質と物理的特性の予測の観点から評価する。結果は、手法間のトレードオフを明らかにする。フローベースのJetFormerは高い再構成品質を達成する一方、VQ-VAEは銀河の物理的特性に対して強力なプローブ性能を示す。AffineとAIMは局所的な形態情報をよりよく保存する。再構成と表現の品質は切り離されており、ここで検討したタスク全体で一貫して最良の性能を発揮する単一の手法は存在しないことがわかる。本研究は、独立に測定された物理量に基づいて評価を行うことで、科学データが基盤モデル向けの解釈可能なベンチマーク構築の基盤として持つ可能性を強調する一助となることを期待する。
プログラム修復のためのLLMベースのエージェントは、テストを反復的に実行してパッチを評価・改良する「生成・実行・修正」パラダイムに基づいて構築されることが増えている。この実行ベースのアプローチは、最先端システムにおける標準的な手法となっている。しかしながら、実行は時間とコストがかかる可能性がある一方、こうしたエージェントへのその影響は十分に調査されていない。本稿では、LLMベースのプログラム修復における実行行動に関して、二段階の実証研究を実施する。実行行動を大規模に特徴づけるため、まずSWE-benchリーダーボードに提出された7,745件のエージェントトレースを分析する。次に、200のSWE-benchインスタンスと3つのエージェント(Claude Code、Codex、オープンソースのOpenCode)に対して、4つの実行パラダイムのもとで3,000件のエンドツーエンドの修復試行を評価し、性能とコストの詳細な比較を可能にする。分析により、以下の3つの重要な知見が得られた。(1) コード実行は分析対象の全エージェントおよびモデルで利用されており、タスクあたり平均8.8回のテスト実行が行われている。実行行動はエージェントやモデルによって大きく異なり、頻度はタスクあたり2回から19回の範囲であり、後期の実行は前期の実行よりも一貫して高い成功率を示す。(2) 実行制限は修復成功率にほとんど影響を与えない。SOTAモデルを搭載した商用エージェントでは、実行禁止と無制限の間の解決率の差はわずか1.25パーセントポイントであり、統計的に有意ではない一方、実行禁止はトークンおよび実時間コストを大幅に節約する。(3) 実行の利点は一様ではなく、集中している。これらのパターンは、現在のエージェントが実行を無差別に適用しており、利益がほとんどないインスタンスでそのコストを支払っていることを示唆している。したがって、実行はデフォルトの機能としてではなく、明示的な費用便益トレードオフを伴うリソースとして扱われるべきである。
オムニモーダルモデルは映像、音声、テキストを取り込むことができるが、複数のモダリティへの統一的アクセスは、モデルが適切な証拠を利用することを保証しない。このギャップは、特に社会的動画質問応答において顕著であり、回答がジェスチャー、口調、時間的手がかり、あるいは発言内容と視覚的表現の不一致に依存する場合がある。本稿では、社会的オムニ推論のためのスキーマ誘導型Mixture-of-ExpertsフレームワークであるCogniRouteを提案する。CogniRouteは、訓練のみに使用される認知スキーマを採用し、各事例をクロスモーダル関係、推論要求、時間的スコープに基づいて分解し、教師あり微調整中にこの構造と大域的なルーティングシグネチャを整合させる。さらに、ルーティング認識型強化学習を導入し、回答の正しさ、モダリティ一貫性推論、認知的时间的接地に対する報酬を用いて、トークン生成と専門家割り当てを共同最適化する。訓練と評価を支援するため、118Kの構造化訓練事例、接地された推論トレース、スキーマラベル、時間的証拠スパン、および手動検証済み評価分割を含む診断用社会的動画QAリソースであるOmniSocialBenchを構築した。CogniRouteはOmniSocialBench上で平均精度59.38%を達成し、最強のプロプライエタリベースラインを15.33パーセントポイント、最強のオープンソースオムニベースラインを26.77ポイント上回り、特に音声-視覚協調、矛盾解決、時間的に接地された社会的推論を必要とする問題で最大の改善を示した。
大規模言語モデル(LLM)は、科学ソフトウェアの利用を容易にすることができる。しかし、汎用モデルは、特定のセンサがどのような測定をサポートしているか、現在のソフトウェアにどのアルゴリズムが実装されているか、あるいは計算結果からどのような結論が正当化されるかを自動的に認識するわけではない。これらの区別は、特に低チャンネル脳波(EEG)において重要である。なぜなら、空間的カバレッジが疎で信号品質が変動するため、もっともらしいが根拠のない解釈が容易に生じるからである。我々は、決定論的ローカルEEGエンジンとハードウェア認識言語層を分離したオープンソースアーキテクチャであるNeuraDock Agentを提案する。数値エンジンは、記録を解析し、品質管理を実行し、レビュー済みスペクトルワークフローを処理し、機械可読なアーティファクトを書き出す。LLMは、許可リスト化されたコンパクトな要約とバージョン管理されたコンテキストパックのみを受け取る。コンテキストは、7チャンネルハードウェア、レビュー済みワークフロー、結果フィールド、実装上の境界、科学的限界、およびリファレンス事例を記述する。生のEEGデータと密なサンプル単位の配列はローカルに保持される。 本システムを3つのレベルで評価する。第一に、12の記録において10回の数値繰り返しで同一の構造化結果が得られ、完全なRest/Task実行において3回の繰り返しで同一の結果、レポート、および図のハッシュが得られた。第二に、リクエストキャプチャおよび故障注入実験により、テストされたデータ境界と、HTTP、不正形式出力、および接続障害下でのローカルアーティファクトの保存が確認された。第三に、境界認識ベンチマークで、4つのコンテキストアブレーションと2つのLLMの下で36の通常問題および敵対的質問をテストし、288の出力を得た。これらの結果は、EEGエージェントが受理、条件付き受理、または拒否する対象を較正するための実用的なメカニズムとして、ハードウェア認識および実装認識によるグラウンディングを支持するものである。ただし、これらは臨床的妥当性や検証済みの絶対認知負荷指標を確立するものではない。