翻訳付きの日次キュレーションされたAI研究論文
参照映像からのカメラモーションクローニングは、動画が直感的かつ精密な制御を提供するため、動画生成において重要なタスクである。既存手法は、マルチショット生成を扱えないパラメトリック表現を直接使用するか、データ不足に悩まされるクロスペアデータを合成することで、複雑なカメラモーションクローニングにおいて性能が低い。これらの問題に対処するため、我々はカメラをグリッドモーションビデオとしてエンコードする汎用的なカメラモーション表現を導入する。このカメラグリッドはカメラパラメータを視覚的に表現し、マルチショット動画生成のための多様な軌道の統合を支援する。これに基づき、我々はOmniDirectorを提案する。これは、キャラクター、アクション、カメラを調整し、マルチモーダル拡散トランスフォーマーに対するディレクターレベルの制御を提供するために、100万規模のカメラグリッド-動画ペアで訓練された統一フレームワークである。さらに、信号間の関係を理解しながらカメラモーションと視覚コンテンツを体系的に記述することで、異なる制御信号を調和的に統合する新しい階層的プロンプト拡張エージェントを設計する。広範な実験により、我々のフレームワークの優れた性能と卓越した制御性が実証される。プロジェクトページ: https://ymlinfeng.github.io/OmniDirector.github.io/
近年、エージェント強化学習(RL)の進展により、大規模言語モデルエージェントのマルチターン型ツール使用能力が大幅に向上した。しかし、従来の手法の多くは、ツール呼び出し境界や固定ワークフローといった粗いヒューリスティック単位でクレジットを割り当てるため、どの中間決定が下流の結果に影響を与えるかを特定することが困難である。本研究では、エージェントRLを「どこで分岐するか」と「分岐後にどのようにクレジットを割り当てるか」という二つの観点から検討する。予備分析の結果、影響力のある決定点はツール呼び出しに集中するのではなく、生成系列全体に広く分布しており、トークンのエントロピーのみでは最終結果への影響を確実に反映しないことが示された。これらの知見に基づき、我々は「エージェント手続き型方策最適化(APPO)」を提案する。APPOは、分岐とクレジット割り当てを粗い相互作用単位から系列内の細粒度の決定点へと移行させる。APPOは、トークンの不確実性と後続の連続生成における方策誘起の尤度ゲインを組み合わせた分岐スコアを用いて分岐位置を選択し、擬陽性の高エントロピー位置を除去しつつ、より標的を絞った探索を可能にする。さらに、手続きレベルのアドバンテージスケーリングを導入し、分岐ロールアウト全体でのクレジット配分を改善する。13のベンチマークによる実験の結果、APPOは強力なエージェントRLベースラインを一貫して約4ポイント向上させ、効率的なツール呼び出しを維持しつつ、行動の解釈可能性を保持することが示された。
近年の進展にもかかわらず、LLMエージェントは長い対話履歴にわたる推論に依然として苦戦している。現在のメモリ拡張エージェントは静的な「検索→推論」パラダイムに依存しているが、この rigid なパイプラインデザインにより、推論中に発見される中間的な証拠に基づいて動的にメモリアクセスを適応させることができない。このギャップを埋めるために、我々は連想メモリグラフと能動的再構成機構を組み合わせたフレームワークMRAgentを提案する。メモリをCue-Tag-Contentグラフとして表現し、連想タグが細粒度のキューとメモリ内容を結びつける意味的な橋渡しの役割を果たす。この構造に基づいて動作する能動的再構成機構は、LLMの推論をメモリアクセスに直接統合し、エージェントが蓄積された証拠に基づいて検索経路を反復的に探索・刈り込むことを可能にする。これにより、メモリ検索が推論コンテキストに動的に適応しつつ、制約のない拡張による組み合わせ爆発を回避できる。LoCoMoベンチマークとLongMemEvalベンチマークにおける実験では、強力なベースラインと比較して最大23%の顕著な改善を示し、トークン数および実行時間のコストを大幅に削減した。この結果は、長期間にわたるメモリ推論における能動的かつ連想的な再構成の有効性を強調している。
大規模言語モデル(LLMs)は、会話生成器から、推論、行動、記憶、自己改善が可能な統合AIシステムへと根本的な変革を遂げつつある。本稿ではこの移行を、チャットボットからデジタル同僚への転換、すなわち「対話による応答」から「持続的な仕事」への転換として概念化する。この移行を、密接に連動する二つの次元に沿って整理する。第一に、認知的核心の次元において、LLMsはチャットボット時代の「高速思考」システム(次トークン予測に駆動される)から、推論時計算、チェーン・オブ・ソート推論、内省、プロセス監視、強化学習を活用してより熟考的で信頼性の高い認知を支援する思考型LLMへと進化している。第二に、ツール拡張型タスク実行の次元において、LLMsは、外部リソースをアドホックに呼び出すツール呼び出しエージェントから、永続的なワークスペース、スキル、検証ループ、ガバナンスを備えたOpenClawスタイルのワークステーションシステム(OpenClaw)へと進歩している。「ワークスペース+スキル」パラダイムは、状態永続性、再利用可能な手順、タスク完了、経験再利用を通じて、エピソード的なツール使用を同僚的なものへと変える。さらに、データ構築が指示応答ペアから状態行動観測軌跡へと移行し、評価が静的ベンチマークからサンドボックス化され監査可能で自己進化するAIエコシステムへと移行する様子を検討する。
近年のエージェントスウォームの成功により、大規模言語モデル(LLM)に基づくエージェントのパラダイムが単一エージェントワークフローからマルチエージェントシステムへと移行し、タスク分解と協調のためのエージェントオーケストレーションの重要性が浮き彫りになっている。しかし、既存のオーケストレーションフレームワークは限られたモダリティにしか対応しておらず、異種モダリティが共存・相互作用するより複雑な設定への汎化が困難である。この制限は、テキスト、画像、音声、動画など多様な入力の統合的把握と調整が求められるオムニモーダルシナリオにおいて特に顕著となる。本研究では、複数モダリティにわたる効率的なエージェント連携を実現するオムニモーダルエージェントオーケストレーションフレームワーク「Orchestra-o1」を提案する。Orchestra-o1は、モダリティ認識型タスク分解、オンラインサブエージェント特化、並列サブタスク実行を可能にする統合オーケストレーション機構を導入する。このスケーラブルな設計により、エージェントシステムは異種情報源を含む複雑な実世界タスクに効果的に対処でき、OmniGAIAベンチマークにおいて2位のアプローチを精度で10.3%上回る。さらに、Orchestra-o1-8Bを訓練するための効率的なエージェント強化学習手法として、決定整合的グループ相対方策最適化(DA-GRPO)を導入し、既存のすべてのオープンソースオムニモーダルエージェントに対して最先端の性能を達成している。
AIエージェントの性能は、モデルが観察・推論・行動を行う方法を仲介するプロンプト、ツール、メモリ、制御フローから構成されるランタイムハーネスに決定的に依存する。しかし、現在のハーネスは大部分が手作業で作成され、静的なままであり、新しいモデルやタスクのたびに個別の足場が要求され、実行中に生成される豊富なトレースが体系的な改善に還元されることはほとんどない。本稿では、合成可能で適応的かつ進化可能なエージェントハーネスのための基盤であるHarnessXを紹介する。HarnessXは、代入代数を介して型付きハーネスプリミティブを組み立て、記号的な適応と強化学習の間の動作ミラーリングに基づくトレース駆動型マルチエージェント進化エンジンであるAEGISを通じてそれらを適応させ、軌跡をハーネス更新とモデル学習信号の両方に変換することでハーネス-モデルループを閉じる。5つのベンチマーク(ALFWorld、GAIA、WebShop、tau^3-Bench、SWE-bench Verified)において、HarnessXは平均+14.5%(最大+44.0%)の改善を示し、ベースラインが最も低い箇所で改善が最大となった。これらの結果は、エージェントの進歩がモデルスケーリングのみに依存する必要はなく、実行フィードバックからランタイムインターフェースを合成・進化させることが実行可能かつ相補的な手段であることを示唆している。完全なコードベースは将来のリリースでオープンソース化される予定である。
検索拡張生成は、テキストから長時間の自己中心的な動画へと拡大しており、システムは複数のモダリティと時間的粒度にわたってクエリに関連するチャンクを選択しなければならない。しかし、VideoRAGの進歩は2つのギャップによって制限されている。既存のベンチマークでは、クエリが動画なしでも回答可能であり、検索エラーが不明瞭になること、そして従来手法ではクエリごとに単一のモダリティ・粒度設定を適用し、チャンクレベルの変動性を無視していることである。我々はこれらの課題に対処するために、〈クエリ, 証拠チャンク, 回答〉のトリプレットからなるベンチマークV-RAGBenchを導入し、検索と生成の忠実で分離された評価を可能にするとともに、複数の設定にわたって並列検索器を実行し、各チャンクに対して最適な設定を特定するチャンク適応型再ランキングを採用したシンプルな手法CARVEを提案する。各チャンクは、検索時に選択された最適な設定のもとで生成器に入力され、チャンクレベルの決定が両段階に伝播するインターリーブされた証拠形式が生成される。CARVEは8つの最新VideoRAGベースラインを上回り、生成器に供給されるチャンクは単一の設定を共有するのではなく、複数の設定をインターリーブしており、これはクエリレベルの手法では達成不可能な動作である。
現在の音声動画質問応答(QA)向け自動パイプラインは、一般に「映像キャプションQA」パラダイムを採用している。しかし、これらの手法では通常、映像を短いクリップに分割し、音声モダリティと視覚モダリティに対して別々の記述を生成する。このように切り離された処理は、音とその視覚的源泉との間の本来の関連を断ち切り、さらに独立したクリップ処理によって、同一エンティティがセグメント間で一貫しない記述となることが多い。加えて、長文理解とQA生成を単一のステップに結合することで、モデルが局所的なイベントに制限されやすくなり、長期的な時間的接続や深いクロスモーダル推論を欠いた質問が生成される。これらの問題に対処するため、本稿では以下の2つのメカニズムを備えた自動データエンジンを提案する。(1)エンティティアンカー型ビデオスクリプティングは、映像を構造化されたスクリプト(要約、主要エンティティリスト、セグメント単位の音声・映像記述を含む)に変換する。エンティティリストはグローバルな事前情報として機能し、セグメント間の参照一貫性を保証し、音声と視覚の関連を再構築する。(2)手がかり誘導型QA生成は、モデルに対してまずスクリプトからセグメント横断的なマルチモーダルな手がかりを抽出させ、その後、これらの高価値な手がかりに基づいてQAペアを生成するように促す。本パイプラインを活用し、命令チューニング用データセットOmniVideo-100Kと、人間が検証したテストセットOmniVideo-Testを構築した。VITA-1.5、Qwen2.5-Omni-7B、Qwen3-Omni-30BをOmniVideo-100Kでファインチューニングした結果、OmniVideo-Testにおいて最大20.59%の性能向上を達成し、Daily-OmniやJointAVBenchなどの既存ベンチマークにおいても最大12.64%の改善と、強力な汎化能力を示した。
過去10年の間に、人間レベルの汎用人工知能(AGI)の構築は、非現実的な憶測から、多くの大規模AI組織にとって具体的な今後10年の目標へと変貌を遂げた。この目標の達成は人類社会に深遠かつ広範な影響を及ぼすことになり、今後10年にわたって多くの複雑な問題を提起する。本報告書では、機械知能の連続体に沿って、AGI後の世界においてAI自体がどのように発展し続ける可能性があるのかを調査する。この連続体の終点である普遍的人工知能(Universal AI)は理論的に十分に理解されており、本報告書の主たる焦点、すなわち人間レベルのAGIから人工超知能(ASI)への移行に形式的な基礎を提供する。ASIは直感的には、大規模な人間組織よりも知的で認知能力に優れたシステムとして理解できる。本報告書では、ASIの特徴を明確にした後、AGIからASIに至る4つの潜在的な経路、すなわちAGIのスケーリング、AIパラダイムシフト、再帰的改善、そして大規模マルチエージェント集団からのASIの創発について議論する。続いて、これらの経路に沿った潜在的な摩擦と隘路について考察する。これらの摩擦の影響が無視できるものか、それとも重大なものかを判断するには、具体的ないくつかの未解決の研究課題が存在する。ASIの進歩予測における大きな不確実性のため、今後数年間にAIの進歩が加速し続ける可能性を排除することはできない。これは、人間レベルのAGIが社会に導入されることによって生じる単一の変革的段階的変化というイメージが不正確である可能性を示唆する。より適切な見方としては、科学技術の多くの分野におけるAI主導の進歩とブレークスルーによって引き起こされる、一連の変革的社会変化の見通しが考えられる。この見通しに備えるには、地球規模の関心と範囲を持つ大規模な学際的取り組みが必要となる。
我々は、LLMのためのグループ相対的政策最適化(GRPO)におけるロールアウトの多様性を強化する新たな次元を特定する。GRPOは多様なロールアウトに依存しているが、一般的な戦略は主にトークンレベルのランダム性をさらに注入することで多様性を高めており、これによりステップごとのノイズが生じ、一貫性のない軌跡につながる可能性がある。我々は、同一モデルファミリー内の小型モデルが、サンプル数が増加するにつれて大型モデルよりも優れたpass@kを示すことから、本質的にポリシーレベルの多様性が高いことを明らかにする。トークンレベルのノイズとは異なり、この多様性は時間的に相関しており、論理的一貫性を維持し、勾配推定のための構造化された探索信号を提供する。そこで我々は、固定された小型モデルを自然な探索器として活用し、大型モデルを訓練する枠組みであるS2L-PO(Small-to-Large Policy Optimization)を提案する。探索と活用のバランスを取るために、オフラインの小型モデルのロールアウトから大型学習器自身のサンプリングへと移行する漸進的アニーリング戦略を設計する。この移行により、小型モデルの容量制限に起因する訓練中期の性能低下を巧みに回避し、より速い収束を達成し、より高い性能上限を開放する。S2L-POは、多様な数学的推論ベンチマーク(例えば、1.7Bの探索器を用いて8Bモデルを指導した場合、AIME 24で+8.8%)において精度を向上させるとともに、ロールアウト計算を削減する。
大規模言語モデル(LLM)は、固定された深さと順序で、全層を非再帰的に実行することで推論を行う。本稿では、学習を必要としない柔軟で動的な「層のプログラム(PoLar)」が広く存在することを明らかにする。このPoLarでは、事前学習済み層をモジュールとしてまとめ、スキップまたはループすることで、各入力に合わせたカスタマイズプログラムを構成できる。多くの入力では、大幅に短いプログラム実行で同等以上の精度が達成され、元のLLMの誤予測は、より少ない層を用いた代替プログラムによって修正可能である。これらの観察結果は、推論において標準の順伝播を超えた複数の有効な潜在計算が存在することを示している。実用的にPoLarを効率的に実現するため、軽量なPoLar予測ネットワークを提案する。これは、各入力に対して事前学習済み層を動的にスキップまたは繰り返す実行プログラムを学習して生成するものである。数学的推論ベンチマークによる実験では、PoLarが標準推論および従来の動的深さ手法と比較して一貫して精度を向上させ、多くの場合、より少ない層の実行でこれを達成し、分布外評価においてもその利得が持続することを示す。これらの結果は、固定深さの実行がLLMの潜在的な推論能力のごく一部しか捉えていないことを示唆している。
大規模言語モデル(LLM)は現在、医師免許試験において専門家レベルのスコアを達成しており、高スコアが安全な医療判断を意味するという前提を助長し、患者が健康アドバイスを求めてLLMを利用するケースが増えている。本研究では、この前提が脆弱であることを示す。すなわち、LLMが元来正しく回答できる設問に誤解を招く文脈を注入すると、正答を放棄するのである。本研究では、敵対的文脈下で正しい判断を維持する能力を認識的レジリエンス(epistemic resilience)と呼び、それを測定するためのMedMisBenchを導入する。MedMisBenchは、10,932件の医療質問項目と48,889組の誤解を招く文脈・選択肢ペアから構成され、医療推論、エージェント能力、患者経路評価を網羅する。11のモデル構成において、平均正答率は元の設問の71.1%から、焦点化された誤解を招く文脈下では38.0%に低下し、攻撃成功率は51.5%に達した。最も有害な注入は、形式的で規則らしい捏造であり、権威を装った虚偽では攻撃成功率69.5%、例外を悪用した主張では64.1%に達した。7か国14名からなる臨床パネルは、審査対象事例の38.2%において深刻な潜在的害を特定した。MedMisBenchは、医療環境におけるLLM評価の構造的な死角を明らかにする。すなわち、既存のベンチマークはモデルが何を知っているかを測定するが、誤解を招く文脈下でも正しい医療判断を維持できるかどうかは測定していない。
ユーザーはエージェントの動作観察、障害診断、説明責任の確保のために実行トレースに依存している。これらのトレースは、ツール呼び出し、中間判断、エラー回復ロジックなど、豊富な手続き的詳細を含んでいる。しかし、この詳細はプライベートな手続きスキルを露呈し、ダウンストリーム手法がモデル重みやスキルファイルにアクセスすることなく、主要な数式、閾値、戦略を復元することを可能にする。このリスクを定量化し、保護策を評価するため、我々は7つのドメインにわたる75の特殊な長期的タスクと154の厳選されたスキルからなるベンチマークCapTraceBenchを構築した。さらに、保護されたキー情報を特定し、検証に不可欠な証拠を保持しつつトレースを書き換え、ダウンストリームの来歴分析のための行動透かしを埋め込む、保護トレース公開フレームワークRedAct(https://github.com/XuShuwenn/RedAct)を導入する。代表的なトレース再利用手法において、RedActは生トレース上の正規化スキル転送率(NST)を44.7~67.1%からスキルなしベースライン以下に低減し、監査証拠を保持する。その単独の行動透かしは、最大1.9%の誤警報率で93.6~100.0%の真陽性検出率を達成する。これらの結果は、公開エージェントトレースをセキュリティインターフェースとして位置づけ、選択的編集が監査証拠を除去することなく手続き的能力の漏洩を低減できることを示している。
大規模言語モデルを基盤とするコーディングエージェントは、ソフトウェア工学分野のタスクにおいて優れた性能を示している。しかし、ほとんどのエージェントはリポジトリをほぼ完全にテキストとして処理しており、人間の開発者がフォルダ階層や依存関係などの視覚的構造を利用して大規模コードベース内での方向感覚を得る方法とは異なっている。マルチモーダル大規模言語モデルを用いる場合、エージェントがリポジトリの視覚的表現から効果的に利益を得られるかどうかは未解決の課題である。本論文では、リポジトリレベルの課題解決におけるLLMベースのエージェント向けの視覚的リポジトリ表現に関する初の系統的実証研究を提示する。我々は4つの最近のマルチモーダルモデルを評価する。その結果、厳密に視覚のみの設定では、エージェントに十分な記号的詳細が欠如しており、繰り返しの視覚的クエリでそれを補うため、精度が低下しトークンコストが増加することが示された。対照的に、標準的なテキストインターフェースに加えて補助的モダリティとしてリポジトリ構造の視覚的グラフを統合することで、エージェントは構造をより効率的に理解できるようになる。入力トークン消費量は最大26%削減される一方、課題解決精度は維持または向上する。可視化は、欠陥特定時やエージェントが探索深度を自律的に制御する場合に最も有用である。これらの知見は、次世代コーディングエージェントのための実用的なテキストとビジョンのハイブリッド設計を示唆している。
大規模言語モデル(LLM)はテキストから画像を生成する(T2I)システムで広く利用されているが、通常はテキスト符号化に限定され、ノイズ除去は新たに学習された生成バックボーンが担っている。表現オートエンコーダー(RAE)の登場により、生成目標は意味的に構造化された視覚表現へと移行し、事前学習済みLLMの事前分布とより親和性の高い潜在空間が創出される。マルチモーダルLLM(MLLM)においては、MLPプロジェクターがクリーンな視覚表現を事前学習済みLLMと整合させるのに十分であるという知見に着想を得て、我々はこのメカニズムをクリーンな入力からノイズを含む入力へと拡張し、MLLM自体をノイズ表現エンコーダーとして再利用する。本稿では、得られたMLLM出力を拡散トランスフォーマーの条件付け信号として用いるRepFusionを提案する。同等の推論予算での統制比較において、RepFusionは新たに初期化されたノイズ除去器に同等の容量を割り当てたベースラインを上回る性能を示した。これらの結果は、MLLMが視覚表現のノイズ除去に対して強力な事前分布を提供すること、そして進化するノイズ表現に条件付けすることで、現代のT2Iシステムにおいてテスト時計算を反復的なMLLM条件付けに有効に配分できることを実証している。
具身世界モデルは、視覚に基づくロボットの意思決定やインタラクティブな環境シミュレーションにおける重要なパラダイムとして台頭してきた。しかし、従来の具身フレームワークは、低次元で構造化されたアクションベクトル(例:関節角度やエンドエフェクタの姿勢)に依存しており、表現能力の限界、多様な身体性への適応性の低さ、複雑な物理的インタラクションに対する不自然な動的モデリングといった問題を抱えている。これらの制約に対処するため、本論文ではiMac(Image as Action Control)を提案する。これは、生の視覚画像を具身世界モデルにおける自然な行動表現として扱う、新たな統一制御パラダイムである。従来の明示的な運動学的行動符号化から脱却し、iMacは連続的な視覚操作を画像ベースの行動トークンとして定式化し、そこに空間的な動作意図、インタラクションの幾何学的制約、微妙な物理的ダイナミクスを内在的に内包する。我々は、画像行動エンコーダと動的世界予測器からなる二分岐の具身アーキテクチャを構築する。エンコーダは目標駆動型の視覚画像をコンパクトな行動埋め込みに圧縮し、予測器は画像行動に条件付けられた環境遷移ルールを学習することで、高忠実度の未来状態予測と閉ループの具身制御を実現する。公開されている具身操作ベンチマークと実世界のロボットシナリオにおいて広範な実験を実施した。結果は、iMacが予測精度、タスク成功率、シーン間の汎化能力において、ベクトルベースの行動制御ベースラインを凌駕することを示している。さらに、我々の画像行動設計は手動で定義された行動空間への依存を排除し、異種の具身エージェントに対する柔軟で普遍的な制御を実現する。本研究は、具身世界モデルに革新的な視覚行動の視点を提供し、スケーラブルなロボット知覚と操作のためのシンプルかつ効果的なパラダイムを提示する。
本報告では、ロボット学習スタック全体をカバーするエンドツーエンドシステムであるHy-Embodied-0.5-VLA(略称HyVLA-0.5)を提示する。このシステムは、データ収集、モデル設計、継続事前学習と教師ありファインチューニング、強化学習によるポストトレーニング、そして実環境への展開を含む。各コンポーネントは、このスタック内で明確な役割を果たす。
最新のLean定理証明系は、検証済み証明データの不足や形式証明探索における長い推論トレースに一部起因して、大規模な学習および推論計算を伴わなければ強力な性能を達成できず、その結果、教師ありファインチューニング(SFT)とサンプリングの両方が高コストになっている。本稿では、実用的な計算予算向けに設計された、計算効率の高いオープンソースのLean定理証明系ファミリーであるPythagoras-Proverを紹介する。このファミリーは、4Bおよび32Bパラメータの自己回帰モデルと、推論時にLean証明を反復的に洗練する初の概念実証としての拡散型証明器(4B)の2つの生成パラダイムにわたる。学習効率の向上のために、カリキュラムSFT用に易・中・難の問題に層別されたLean検証済みコーパスを構築し、モデルが短く簡単な証明から長く難しい証明へと段階的に証明スキルを習得できるようにする。SFT中は、動的証明推論フィルタリング方式により、各インスタンスを8kトークンのコンテキスト予算内に保ちつつ、情報豊富な証明トレースを保持する。また、Augmented Lean Formalisation(ALF)を導入する。これは、希少な検証済みコーパスを形式的な命題のバリエーションに拡張し、変異させた各インスタンスを形式的に検証することなく、自己蒸留によって追加の学習信号を充填するものである。既知の問題をその形式的特性を保ちつつ摂動することで、ALFは任意の命題の表面的な形式への依存を低減する。実験的に、Pythagoras-Prover-4BはMiniF2F-Testにおいてpass@32でDeepSeek-Prover-V2-671Bを上回り(86.1%対82.4%)、パラメータ数は約167分の1である。一方、Pythagoras-Prover-32BはMiniF2F-Testで93.0%のオープンソース最高性能を達成し、PutnamBenchの672問題中93問を解く。我々はMiniF2F-ALFを公開する。これはALFによって変異された汚染に敏感なベンチマークであり、評価されたすべてのモデルが精度を低下させる。このベンチマークにおいて、我々の32Bモデルは最強であり、4Bモデルは従来の最高性能であるGoedel-Prover-V2-32Bに匹敵する。
AI 生成レビューが実験的ツールからピアレビュー基盤へと移行する中で、ロバスト性に関する懸念の大部分は、隠れた指示やプロンプトインジェクションといった明示的な攻撃に焦点が当てられてきた。本研究では、より困難で政策上重要な失敗モードを調査する。すなわち、隠れたテキスト、プロンプトインジェクション、そして手法、実験、図表、数式、証明、数値結果への変更は一切存在しない。攻撃者は、要約、貢献の位置づけ、関連研究、議論、物語構造といった、プレゼンテーションレベルの内容のみを改変する。我々は、敵対的リパッケージング(adversarial repackaging)を導入する。これは、科学的証拠を固定したまま、AI レビュアーからのフィードバックを利用してプレゼンテーションレベルの改訂を探索する閉ループ攻撃である。3つの主流のAIレビュアーにおいて、敵対的リパッケージングは75.1%の攻撃成功率を達成し、平均スコアの向上は+1.21/10であった。この効果は通常の散文の洗練では説明できない。また、関連研究の再配置や分析議論の拡張など、レビュアーが論文を解釈する方法を変える戦略が、局所的な洗練、表の整形、アルゴリズムボックスといった表面的な編集を大幅に上回る効果を持つことも明らかにした。 我々の分析は、2つのより深い構造的失敗モードを明らかにする。第一に、AIレビュアーは説得されるよりも感銘を受けやすいことである。すなわち、長所を強調することは認識される価値を確実に高める一方、弱点を解消しようとする試みはしばしば逆効果となる。第二に、AIレビュアーは、制約に対処しているように見えることと実際に解決することとを混同する可能性があり、変更されていない証拠がより強力な科学的貢献として再解釈されることを許容する。これらの結果は、導入リスクが悪意ある隠れた指示だけでなく、論文のプレゼンテーション自体が最適化対象面として出現することにあることを示している。我々は、プレゼンテーションのみの編集下でもAIレビュアーが科学的内容に留まっているかどうかをテストするための、汚染のないローリングベンチマークと攻撃フレームワークを公開する。
GUIグラウンディングにGRPO(グループ相対方策最適化)を適用する場合、ロールアウトは単一のスクリーンショットビューからサンプリングされるため、グループは困難なインスタンスではすべて失敗、簡単なインスタンスではすべて成功となりがちで、有用な相対的アドバンテージが得られない。本論文では、VISTA(ビュー一貫性自己検証学習)を提案する。これはGRPOベースの学習フレームワークであり、同一のGUIインスタンスのターゲットを保持する複数のビューから各比較グループを構築する。各ビューは、ターゲット要素を可視に保ち、そのボックスを正確に再マッピングするクロップによって生成される。これにより、モデルのロールアウトが意味的に等価だが幾何学的に異なる入力間で比較される。短い座標生成を安定化させると同時に、強化学習を無条件の模倣に変えないために、VISTAはさらに自己検証型クロスビューアンカーを追加する。これはアドバンテージ重み付け損失で最適化されたオラクル回答であり、グループベースラインから除外され、モデルが最大報酬ロールアウトを生成した場合にのみ活性化される。5つのGUIグラウンディングベンチマークと複数のQwenバックボーンにおいて、VISTAは一貫してグラウンディング精度を向上させる。ScreenSpot-Proでは、Qwen3-VL 4B/8B/30B-A3Bの精度を55.5/52.7/53.7から63.4/65.8/67.0に向上させる。ロバスト性分析により、さらに最悪ビュー精度の向上と予測反転率の低下が示されている。
ビデオベースの世界モデルにおける最近の進展は、高忠実度な視覚シーケンスを合成する前例のない能力を示している。しかし、視覚的に妥当なビデオ生成と世界モデルの機能的要件との間には、特に長時間の時間スパンにわたって安定かつ合理的な内部状態を維持するという点で、根本的なギャップが依然として存在する。既存のベンチマークは主に視覚品質、動作の一貫性、テキストとビデオの整合性に重点を置いているが、世界モデルが長期的な時間スパンや複雑な相互作用にわたって一貫性を保持する中核的能力である記憶(メモリ)をほとんど無視している。このギャップに対処するため、我々はMBenchを提案する。これはビデオ世界モデルの記憶能力を定量化・評価するための包括的なベンチマークである。我々はビデオ世界モデルの記憶能力を、エンティティ一貫性、環境一貫性、因果一貫性という3つの階層的かつ補完的な中核次元に体系的に分解し、さらに長期記憶の包括的特徴付けのために12の定量化可能なサブ次元に細分化する。本ベンチマークは厳密にキュレーションされた実写長編ビデオに基づいて構築され、ルールベースの定量評価行列とVLMにより評価されることで、客観的かつ包括的な一貫性評価を可能とする。最先端の主流ビデオ世界モデルに対する広範な評価は、長期状態保持における既存手法の重大なシステム的限界を明らかにし、この分野を前進させるための標準化されたベンチマークと明確な研究方向を提供する。
動作が物理的変化を誘発する仕組みを捉える世界モデルは、身体に固有の行動ラベルに依存することなく、スケーラブルなロボット学習を可能にする。ピクセル空間のビデオモデルは広範な視覚的事前知識を提供するものの、モデル容量を密な外観再構築に費やす。一方、直接行動モデルは身体固有のラベルを必要とし、スケーラビリティを阻害する。本論文では、3Dトレースに基づくスケーラブルな世界モデルμ_0を提案する。μ_0は、密なピクセルを予測したり行動を直接モデリングしたりするのではなく、物体、ツール、手、接触領域といった顕著な相互作用点の滑らかな3D軌道を予測し、コンパクトで身体に依存しない動作インターフェースを提供する。多様なビデオソースからの学習を可能にするため、我々のTraceExtractシステムは、キーポイントの選択、グローバルに整列されたトレースの構築、動作セグメントと階層的な言語キャプションとの関連付けを通じて、3D教師情報を自動的に抽出する。このTraceExtractによる教師情報は、事前学習済みの視覚言語バックボーンとモジュール式トレースエキスパートを組み合わせてμ_0を事前学習する。トレースエキスパートは各クエリをBスプライン制御点で表現し、将来のトレースを予測する。実験では、μ_0がトレース予測モデルやトークン化されたVLM手法を含むベースラインを、2Dおよび3Dトレース予測の両方で上回ることを示す。μ_0は凍結されて再利用可能であるため、下流のロボット身体に対する行動エキスパートと組み合わせることができる。行動なしの事前学習にもかかわらず、得られたトレース条件付きポリシーは、π_0などの行動教師ありで事前学習されたVLAモデルと競合する性能を達成する。これらの結果は、3Dトレースが身体横断的操作のためのスケーラブルで転送可能な表現であることを実証する。
複数の言語モデルエージェントから構築されたAIシステムが一般的になるにつれて、それらは共有タスクについて議論、交渉、行動を行うという共同意思決定にますます利用されるようになっている。個々のエージェントは単独でテストした場合には十分に整合しているように見えるかもしれないが、それらが互いに相互作用する方法から問題が生じる可能性がある。我々は、マルチエージェント会話をリアルタイムで監視し、どの参加者が非整合的な行動をとっている可能性があるかを特定するように設計されたエージェントであるArbiterを導入する。Arbiterは限られた「検査予算」の下で動作し、リソースの使用方法を慎重に決定する必要がある。会話を段階的に観察しながら、待機する、参加者に質問する、システムプロンプトや推論トレースなどの内部情報を調査する、または懸念される行動をログに記録するという選択が可能であり、最後に非整合の原因と思われるものを特定するレポートを生成する。我々は、リスクの高い金融アドバイスモデル生物から評価認識型および共謀型エージェントに至るまでの5つの会話条件にわたってArbiterを評価し、能力が増大する5つのツール構成と2つのバックボーンモデルをテストした。その結果、Arbiterは会話の終了よりかなり前に非整合的なエージェントを確実に検出し、能動的な検査ツールが検出精度と速度の両方を向上させることがわかった。重み起因の非整合は検出が最も困難である一方、指示起因の非整合は受動的観察下でも確実に識別される。ログ記録ツールは二重の効果を示し、精度を犠牲にして再現率を向上させる。これらの結果は、継続的かつ予算を意識した監視が非整合を効果的に捉えることができること、そしてマルチエージェントシステムの監督には、監査人をプロセスにおける能動的な参加者として扱うことが必要となる可能性があることを示唆している。コードは https://github.com/aisilab/arbiter で入手可能である。
対象人物と外見的に類似しているだけでなく、行動的にも認識可能であり、その話すリズム、身振りの傾向、表情のダイナミクスを忠実に再現するアバタービデオの生成は、依然として未解決の課題である。既存手法は主に単一の静止画像に依存しており、提供される同一性情報が不十分で、動的な動作特性を捉えることができない。また、標準的なピクセルレベルの目的関数は、アバターの忠実度を決定する知覚的に重要な顔領域に対して不十分な対応しかできない。我々は、ビデオ参照条件付き同一性モデリングを通じてこれらの限界に対処する、プロダクション規模のフレームワークAvatar Vを提案する。本モデルは、同一性を固定サイズの埋め込みに圧縮するのではなく、参照ビデオの完全なトークン系列に直接条件付けを行い、参照コンテキストに対するアテンションを通じて、静的な同一性属性(顔の形状、肌の質感)と動的な行動パターン(話すリズム、微表情)の両方を再現することを学習する。我々は、任意に長い参照に対して線形複雑度の条件付けを実現する非対称機構であるスパース参照アテンション、閉ループの話し方スタイル転送を可能にする動作表現ストリーム、そして完全な参照条件付けを継承する同一性認識超解像リファイナを導入する。これらは、5000万以上の生ビデオから1億以上のトレーニングクリップをキュレーションするデータエンジンと、フローマッチング事前学習、パーソナリティファインチューニング、二段階蒸留(10倍以上の高速化)、およびRLHFアライメントからなる5段階のトレーニングパイプラインによって支えられ、数千のGPUにわたって展開される。Avatar Vは無制限の長さの1080pビデオを生成し、我々のクロスシーンベンチマークにおいて、最先端の同一性保存、リップシンク、および生成品質を達成し、自動評価と人間評価の両方でSeedance 2.0、Kling O3 Pro、Veo 3.1、OmniHuman 1.5を含む主要システムを一貫して上回る。
拡散トランスフォーマー(DiT)に基づく動画生成モデルは、映像合成において顕著な性能を達成しているが、3Dアテンションの二乗計算量に起因して、高い推論遅延と計算コストを被っている。既存の高速化手法は主に、スパースアテンションやKVキャッシングなどの技術を通じて、各ノイズ除去ステップ内の計算複雑性を低減する。しかし、それらは標準的な拡散パイプラインの固有の制約、すなわち目標動画シーケンスのすべてのフレームが、全拡散タイムステップにわたって完全で密なノイズ除去プロセスを経なければならないという制約に硬直的に従っている。我々は、隣接フレーム間の対応する内容と動きにより、重要な意味的遷移を持つキーフレームが固定されると、他のフレームの中間状態は多くの場合、より予測可能な軌跡をたどることを観察した。これは、このような均一で密なノイズ除去プロセスが、自然動画データに対して本質的に冗長であることを示している。そこで我々は、異なるフレームのノイズ除去軌跡を分離する学習不要のフレームワークであるRhymeFlowを導入する。具体的には、まず潜在的な意味的進化を支配する疎な一連の重要なキーフレームを特定する。次に、これらのキーフレームのみが構造的一貫性を確保するために密で段階的なノイズ除去を受け、非キーフレームは計算コストを最小化するためにノイズ除去ステップを逐次的にスキップする。しかし、非キーフレームのスキップされた中間状態がキーフレームのノイズ除去ステップにおける時間的一貫性を破壊し、視覚的劣化を引き起こすため、さらに潜在軌道投影モジュールを導入し、キーフレームが完全で時間的に一貫したシーケンス表現と相互作用できるようにする。現在のDiTベースの動画生成モデルにおける広範な実験により、我々の手法は、より高い推論速度と優れた視覚品質を備え、既存のベースラインを凌駕することを示す。
低ランク適応(Low-Rank Adaptation, LoRA)において、スケーリング係数αはしばしば学習率の単なる補完として扱われるが、その最適化における役割は未だ十分に理解されていない。本論文では、スケーリング係数αと学習率が異なる機能を持つことを明らかにし、αが効果的最適化の主要な推進力として現れ、学習率のスケーリングだけでは再現できない利得をもたらすことを示す。広範な経験的分析と理論的な信号-ドリフト枠組みの相乗効果を通じて、我々はLoRAのスケーリングメカニズムに関する3つの発見を明らかにする。第一に、LoRAのスペクトル抑制は最適化地形を平滑化し、標準的なハイパーパラメータを過度に保守的にし、最適化ギャップを生み出す。第二に、この平滑性を活用して収束を加速する場合、αはタスク信号を増幅し、ドリフト比を増加させることなく学習率を上回る性能を発揮する。第三に、最適なスケーリング係数はランクと劣線形関係にあり、予想外に大きな係数を持つ平方根則によってよく特徴づけられ、既存のランク連動ヒューリスティックスのスケーリングが不十分であることを明らかにする。これらの知見に基づき、我々はLoRA-αを提案する。これはαを原理的な領域に戻す最小限の枠組みであり、LoRAを標準的な小さな学習率と互換性を持たせる。多様なタスクにわたる広範な評価により、LoRA-αがハイパーパラメータ探索を効率化しつつ一貫して性能を向上させ、LoRAの学習可能性を解放することを実証する。
アクティベーション・ステアリングは、推論時に言語モデルの振る舞いを制御する軽量なアプローチを提供するが、その成功または失敗はプロンプト、概念、モデル、ステアリング構成に大きく依存する。成功するステアリングの領域と境界を見つけるには、通常、高コストなグリッドサーチと完全な自己回帰的ロールアウトの事後評価が必要である。本研究では、生成過程の初期段階、例えば最初の数トークンを生成した後のモデルの内部状態からステアリング可能性を予測できるかどうか、またそのような予測器を活用してステアリングの成功率を向上させる方法を調査する。この目的のために、まずASTEERを導入する。これは140万件のステアリング生成を含むテストベッドであり、150の概念にわたり、各ステアリングの成功/失敗がラベル付けされている。このテストベッドを活用し、ステアリング前後の隠れ状態を層と初期デコードステップにわたって比較する特徴を抽出することで、モデルの初期デコーディングダイナミクスを分析する。これらの特徴は、ステアリングの効果が層とトークン位置に沿ってどのように伝播するかを理解するのに役立ち、ステアリング可能性予測のための重要な情報を提供する。次に、これらの特徴に基づいて勾配ブースティング決定木(GBDT)分類器を訓練し、完全なロールアウトを必要とせずに介入が過少ステアリング、成功、過剰ステアリングのいずれになるかを予測する。本予測器は未見の概念に対して約0.7のマクロF1スコアを達成し、初期の隠れ状態が最終的なステアリング効果に関する実質的で構造化された情報を符号化していることを示している。さらに、このステアリング可能性予測器をステアリング強度探索のガイダンスとして活用し、ごく一部のデコードコストで準最適な性能を達成する。
信頼できる医用マルチモーダル大規模言語モデル(MLLM)の構築は、信頼性の高い臨床意思決定支援にとって極めて重要である。既存の医用幻覚ベンチマークは主にデータ収集に重点を置いているが、推論プロセス内で幻覚がどこに起因するかという点はしばしば無視されてきた。我々は、幻覚の発生源がサンプルごとに異なることを見出した。すなわち、誤りは視覚認識の誤り、不正確な医学知識の想起、あるいは推論統合の欠陥から生じ得る。このような発生源レベルの幻覚診断を可能にするため、我々は医用MLLM推論における段階別幻覚診断のためのベンチマークであるClinHalluを導入する。ClinHalluは7,031件の検証済みインスタンスを含み、各インスタンスには視覚認識、知識想起、推論統合に分解された構造化推論トレースが付与されている。また、段階置換介入(stage-replacement interventions)を用いて、特定の段階を修正することが最終回答にどのように影響するかを測定する。評価に加えて、トレース監視付きファインチューニングが段階別幻覚を軽減することを示す。ClinHalluは、医用MLLMにおける推論の失敗を診断・軽減するためのきめ細かな幻覚テストベッドを提供する。本ベンチマークはhttps://github.com/alibaba-damo-academy/ClinHalluで公開されている。
オンライングループチャットは、暗黙的にしか示されない局所的な会話規範を持つ社会的空間である。LLMベースのエージェントがこれらの規範を認識し適応する能力と意欲は、ほとんど未解明のままである。本稿では、多者間チャットにおける局所的社会的規範適応のためのベンチマークであるLoSoNAを紹介する。各シナリオでは、被験モデルに対して、非被験参加者が隠れた局所規範を示す厳選されたグループチャットのトランスクリプトが与えられ、その後に、被験者がその規範を推論したかどうかを明らかにする応答を強制する最終誘発ターンが続く。我々は、8つのフロンティアモデルおよびオープンウェイトモデルを、モデルに対し先行する会話を回答の根拠として扱うよう指示する明示性の程度を変えた4つのプロンプト条件下で評価する。単純なプロンプティングではほとんどのモデルの性能が限定的であり、明示的な規範認識プロンプティングは不均一に効果を示し、Gemini 3.1 Proは84.2%、Claude Fable 5は81.6%に達した一方、他の複数のモデルではわずかな改善または後退が見られた。LoSoNAは、モデルが先行事例から局所的な会話規範を推論し、それを1ターンのグループチャット応答で活用できるかをテストすることで、LLMの社会的能力の評価を求める近年の主張に貢献する。
AIエージェントは科学発見を加速するためにますます開発されているが、実際の研究環境におけるその実用的能力は依然として十分に理解されていない。既存のAIエージェント用ベンチマークは、科学作業に必要な複雑性、異質性、および長期にわたる推論をほとんど捉えていない。一方、科学タスク用のベンチマークは研究を静的な直接問題に還元し、対話的評価のサポートが限られている。ここでは、複数領域にわたる新興ニーズから抽出された実世界の科学研究シナリオにおいてAIエージェントを評価するための体系的なベンチマークであるSciAgentArenaを紹介する。SciAgentArenaは、段階的検証を備えた約200のタスクと、多様なAIエージェントを評価するための対話的かつエージェント非依存の環境から構成される。このベンチマークを用いて、現在のエージェントは明確に指定されたデータ分析ワークフローに効果的に貢献できること、特にタスク構造と評価基準が明確な場合に有効であることがわかった。しかし、その性能は科学的コンテキストによって不均一であり、エージェントは真に斬新な洞察を生成すること、自己主導的な探索を維持すること、および未解決の研究課題に対する頑健な解決策を定式化することに苦慮している。さらに、エージェント間の共通の障害モードを特徴付け、その信頼性、自律性、科学的推論を改善する機会を特定する。総じて、SciAgentArenaは科学のためのAIエージェントの進歩を測定し、複雑な科学的課題に対処できる将来のエージェントの設計を導くための実用的な枠組みを提供する。完全なコード、タスク、データセットは以下のリンクからアクセスできる:https://sciagentarena.github.io/。
オン方策蒸留(OPD)は、オン方策の学生軌跡と密な教師監督という二つの望ましい要素を組み合わせているため、近年、ポストトレーニングの主要な手法となっているが、このハイブリッドがモデルのパラメータをどのように変化させるかは依然として不明である。いくつかの言語モデルおよび視覚言語モデルのペアと使用事例にわたる我々の分析により、二つの主要な知見が得られた。スパース性に関して、OPDスタイルの更新は小さく、座標方向にスパースである。これらの更新は層全体に分散しており、通常はFFN(フィードフォワードネットワーク)に偏っている。このスパースな構造は運用上有用であり、発見されたサブネットワークのみを訓練することで、完全なOPDとほぼ同等の性能が回復される。しかし、我々のオプティマイザアブレーションでは、スパース性を誘導するSGDオプティマイザはAdamWよりも性能が劣る。これはおそらく、密な教師監督が異質な座標方向の勾配スケールを保持し、AdamWの適応的スケーリングが依然として有効であるためである。幾何学的形状に関しては、更新は数値的にフルランクであるがスペクトル的に集中しており、それらは主としてソース重みの主要特異部分空間から離れた位置にあり、ソース重みがゼロに近い座標に不均衡に集中する。これらの知見は、密な教師監督がOPDを通常の密なパラメータ書き換えに変えるわけではなく、むしろOPDがオン方策ポストトレーニングの重要な幾何学的特徴を保持していることを示唆している。
アフォーダンス推論、すなわち物体の物理的特性(形状や材質など)からその動作可能性を推論することは、人間の物理的理解の基盤であり、大規模言語モデル(LLMs)にとってますます重要になっている。しかし、既存のアフォーダンスベンチマークは、評価設定において物体の正体を明示的に露出させることが多く、その結果、モデルは物理的特性に基づく推論ではなく、記憶された物体-アフォーダンスマッピングに依存することが可能となる。このギャップに対処するため、我々は物体の正体を明かさない20質問ゲームとして構成された、新規のアフォーダンス推論ベンチマークであるAffordance20Qを導入する。各ゲームにおいて、モデルは物理的特性に関するはい・いいえの質問をすることで、候補セットから隠された物体のアフォーダンスを特定する。Affordance20Qは、454個の物体と59のアフォーダンスにわたる1,009ゲームから成り、すべて手動でフィルタリング、精緻化、アノテーションが行われている。我々は15の最先端LLMを用いた包括的な実験を実施し、人間のパフォーマンスと比較して約20ポイントの substantial なギャップを発見した。さらに、KL情報利得(IG)に基づく分析により、ゲームが進むにつれてモデルが識別力のある質問を行うことができないことが示された。このギャップを埋めるため、我々はKARI(KB-Anchored Rule Induction)を開発した。これは知識ベース(KB)からの証拠に基づいたアフォーダンスルールを生成するLLMベースのパイプラインである。KARIはオープンソースLLMを最大15.2ポイント向上させる一方、KBのカバレッジの限界が更なる改善を妨げている。すべてのコードとデータはhttps://github.com/1171-jpg/Affordance20Q.git で公開している。
人間の推論に関する研究では、一般に人は推論をゼロから生成するよりも評価する方が得意であることが示されている。対照的に、大規模推論モデル(LRM)は、複雑な問題を解決するために長い推論連鎖を生成することに優れるよう訓練されている。では、LRMは推論の評価においてどのような性能を発揮するのだろうか。本研究では、VAIR(Valid-Answer-Invalid-Reasoning)データセット、すなわち些細な推論上の欠陥を含むが回答は正しい数学問題とその解答を用いて、推論評価を推論生成の交絡要因から切り離して調査する。人間はこの種の問題の採点が解決よりもわずか6%劣るだけであるのに対し、LRMでは生成と評価の間に大きな隔たりが認められる。最先端モデルは、解答生成ではほぼ完璧であるにもかかわらず、VAIRの解答を評価する際には48%もの低スコアに留まる。 この謎はなぜ生じるのか。思考連鎖(CoT)分析を通じて、回答確証バイアスの証拠を発見した。LRMは各ステップを注意深く検証する代わりに、正しい回答を生成してからそれを確認することが多く、異常な推論に気づいても理屈をでっち上げる傾向がある。線形プローブによる検証でもこれが裏付けられ、LRMの活性化は妥当な推論の表象をある程度符号化しているが、VAIR解答を無効なものとして頑健に表象することはできない。最終回答の表象に対する因果パッチングにより、LRMの判定と活性化が反転することが示され、回答の正しさがモデルの確証バイアスの原因であることが明らかになった。これらの知見は、主流の推論訓練手法に顕著な限界があることを示している。すなわち、現在の訓練はLRMに対し、正しい回答に向けた推論の生成と確認を促すが、根底にある推論自体を頑健に評価させるものではないのである。
マルチモーダル大規模言語モデルは、複雑なプログラムを生成するコードを記述できるだけでなく、プログラムを利用して3Dモデリングを行うことも可能であり、それらの事前知識、世界知識、推論能力に基づく3D生成の新たな道を切り開いている。しかし、既存のベンチマークではコードによる3Dモデリングを評価することはほとんどない。このようなモデリングには、実行可能なコード以上のものが必要である。テキストまたは視覚的な仕様から、モデルは幾何学的に正確で、意味的に整合し、組み立て一貫性のあるパラメトリック3Dプログラムを生成しなければならない。本稿では、パラメトリック3D生成のためのベンチマークであるP3D-Benchを紹介する。3Dメッシュとは異なり、パラメトリック3Dプログラムは明示的な寸法、構築操作、部品関係を露出し、モデルが対象の外観だけでなく設計構造を復元できるかどうかを明らかにする。統一プロトコルの下で、P3D-Benchは三つのタスクファミリー(テキスト→3D、画像→3D、組み立て→3D)をカバーし、各出力に対して実行可能性、幾何学的忠実性、トポロジー、テキストに基づく制約、多視点意味的整合性、部品レベルの構造を評価する。我々は、最先端のMLLMとテキスト専用LLMを、400件のテキストケース、400件の画像ケース、203件の注釈付き組み立てに対して評価し、ドメイン特化モデルを基準点として用いた。広範な評価から三つの知見が得られた。第一に、組み立て設定が最も難しく、モデルは複数の部品を一貫性のある構造に合成することが依然として困難である。第二に、モデルは対象物体の大局的な形状と意味的同一性を復元できることが多いが、入力で指定された正確なパラメトリック幾何形状を再現することはできない。第三に、部品レベルのモデリングは組み立てにおいて依然として弱く、モデルは各部品の幾何形状も適切な部品数も復元できない。これらの結果は、P3D-Benchをパラメトリック3D生成における正確なパラメトリック幾何形状と部品レベルの構造を評価するためのベンチマークとして位置づけるものである。
視覚・言語・行動(VLA)モデルは、事前学習された視覚・言語モデル(VLM)を連続行動エキスパートと結合することで、強力な操作性能を達成しているが、分布外(OOD)の言語指示への一般化は依然として不十分である。既知の課題として、VLAデータにおける構造的不均衡、すなわち言語が視覚や行動コンテンツに比べて多様性に乏しいため、方策が視覚的な近道に依存しやすくなることが挙げられる。離散行動手法は視覚言語の共学習によってこの問題を緩和するが、連続行動エキスパートにはそのような保護がなく、ランダム初期化から始まり不均衡なデータのみから学習するため、ノイズの多い勾配がVLMを損ない、その言語能力を活用できなくなる。我々はこの問題をベイズ的観点から捉え、方策を言語非依存の視覚・行動(VA)事前分布と言語条件付きVLA尤度に分解し、行動エキスパートの事前学習(Action expert PreTraining)を重視する2段階学習法APTを提案する。第1段階では、凍結したVLMからの視覚・行動ペアを用いて行動エキスパートをVA事前分布として事前学習し、言語の不均衡を回避する。第2段階では、ゲート付き融合機構により言語トークンを注入し、学習済みの視覚運動事前分布を保持しながらVLM特徴を統合する。APTは、π型およびGR00T型アーキテクチャを含む主流のVLAアーキテクチャに適用可能である。包括的な実験により、APTが未見の指示や構成タスクにおいて一貫した性能向上を達成することを検証した。プロジェクトページ: https://xukechun.github.io/papers/APT/
Image-to-3D手法は、しばしば忠実性と完全性の間でトレードオフを生じる。すなわち、深度推定器は入力画素に固定されるが可視表面で停止する一方、画像から3Dモデルを生成する手法は完全な形状を生成するものの、入力との位置ずれが生じることが多い。本稿では、World Tracingを導入する。これは生成型の画素整合幾何表現であり、観測された画素に整合する3D点を予測すると同時に、可視表面を超えた幾何形状を完成させる。各入力画素に対して、World Tracingはカメラ空間における順序付けられた3D点のスタックを予測し、第1層は可視表面を、後続の層はオクルージョンされた表面との前後方向の交差を表す。この表現を、ワールドトレーシング拡散トランスフォーマーWT-DiTにより具現化する。WT-DiTは複数の幾何層を分離されたデノイジングトークンとして扱い、分解注意と大域的注意を組み合わせて結合する。WT-DiTは画素空間フローマッチングと、可視表面の再構成とオクルージョン幾何の生成のバランスを取る混合ノイズスケジュールで学習される。World Tracingは、物体・シーン・動的ベンチマークにおいて可視表面の再構成と完全な幾何生成の両方で優れた性能を達成し、深度予測器や画像-to-3D生成器を凌駕する。また、2D-to-3D対応を維持するため、テキスト駆動の3Dシーン編集、幾何条件付けによる新規視点動画合成、テクスチャメッシュ生成器との学習不要の統合を可能にする。
多模态基础模型(MFMs)已取得显著进展,但在物理世界的空间推理方面仍显脆弱。其关键瓶颈在于无法将局部的自我中心观测转化为全局的他人中心空间表征。为解决这一问题,我们提出AlloSpatial——一个用于基础模型他人中心空间认知的智能体框架。AlloSpatial引入了World2Mind,这是一个即插即用的认知映射沙盒,可将自我中心观测转化为结构化的他人中心先验知识,包括支持对象拓扑、几何关系、可通行性及轨迹查询的他人中心空间树(Allocentric-Spatial Trees)与路径地图。为在噪声重建与模糊视觉证据下可靠地利用这些先验信息,AlloSpatial设计了一个空间推理套件(Spatial Reasoning Harness),用于工具使用判断、模态解耦线索收集以及几何-语义仲裁。我们还通过冷启动强化学习,结合套件门控的轨迹级奖励,将该过程内化至Qwen3-VL模型。在VSI-Bench与MindCube上的实验表明,AlloSpatial在无需训练的情况下,使专有模型性能提升5%-18%;即便去除视觉输入,ASTs本身也能支撑强大的空间推理。经过训练的AlloSpatial智能体进一步超越了更大规模的通用模型及具有竞争力的空间基准模型,这表明结构化的他人中心表征、主动工具使用以及可验证的推理,为构建具备空间能力的基础模型提供了一条有前景的路径。
本研究では、確率的ミニマックス木における固定信頼度の最適動作識別(BAI)を扱う。この問題は、深層ミニマックス探索や、言語モデルによる長期ロールアウトを用いたモンテカルロ木探索(MCTS)が基本的なトレードオフに直面する、現代のAIプランニングにおいて重要性を増している。すなわち、ヒューリスティック評価は安価だがバイアスがかかりやすく、正確なロールアウトは信頼性が高いものの、コストが法外に高くなるという問題である。本研究では、マルチフィデリティ・フラットバンディットの概念を木探索に導入した、2FFS(二重忠実度木探索アルゴリズム)を提案する。本アルゴリズムは、ミニマックス方式の高速展開とMCTS方式の確率的サンプリングを組み合わせ、安価でバイアスのかかった評価をいつ活用し、局所的な検証のために高価で正確な評価をいつ呼び出すかを適応的に決定する。我々は、このアルゴリズムに対して固定信頼度の正当性を証明し、正確な識別のための有限停止性を確立し、一般の深さの木に対する多項式深さコストの上限を与える。数値的な確率木実験において、2FFSは既存のBAI-MCTSベースラインと比較して、サンプル数と計算操作数を大幅に削減する。
トークン単位の幻覚検出器は、全トークンに対するAUCによって分類器として評価されるが、ストリーミングモニタはその反応時間、すなわち幻覚の発生から警報までの間に通過するトークン数によって判断される。本稿では、幻覚開始検出を最速変化検出問題として定式化する。潜在的な忠実状態/幻覚状態に関する一次マルコフモデルはRAGTruth上で検証され、このタスクを古典的な変化点理論の枠組みに位置づけ、偽警報率0.01においてローデンの検出遅延下界として約1.3トークンを与える。次に、因果的リカレントラベラーが学習された増分を持つCUSUMとして機能することを示す。整合した偽警報率において、線形なトークン単位のベースラインの31トークンに対し、11〜13トークンで検出を達成する。制御された分解により、この優位性の大部分は時間的蓄積ではなく、より優れたトークン単位のスコアに起因することが示される。ドンスカー・ヴァラダン型の情報率最適性定理は、残る桁違いのギャップを説明する。すなわち、学習されたスコアは特徴量が持つダイバージェンスのわずか1/4.5しか実現しておらず、この不足は再調整では除去できず、残りは有限ホライズン効果である。分類指標はこの遅延構造を隠蔽するが、逐次分析はそれを測定可能にする。
本稿では、実世界の形式的ソフトウェア検証タスクにおけるAIモデルおよびエージェントの評価のためのベンチマークを提案する。まず、実在のPythonリポジトリから11,039件のプロパティベーステスト(PBT)を収集し、そのうち2,772件(25%)を自動的に9,415件のLean 4仕様(sorryプレースホルダー付き)に変換する(PBTあたり約3件の形式化;品質指標で支配的なものが存在しない場合、複数の試行を保持する)。PBTをLean仕様に変換する作業は困難を伴う。なぜなら、Pythonの意味論をLean上でモデル化し、命令型PBTに符号化された論理プロパティを推論し、さらに使用頻度の低い言語における依存型プログラミング特有の難しさに対処する必要があるからである。本稿では、PBTをLean仕様に変換するための3エージェントLLMパイプラインを説明し、カバレッジと品質指標を評価するとともに、自動化手法およびモデルベース手法を用いた証明生成のベースラインを提供する。すべてのコード(スクレイパーおよびエージェント)とデータ(PBTおよびLean仕様)はオープンソースとして公開されている。本ベンチマークは、AIが生成するコードが増加する中で注目が高まっている、現実世界のソフトウェアに対するAI支援による形式的検証という未開拓の課題の進展を促進することを目的とする。
エゴセントリックな人間の動画は、事前学習においてロボットデータに対するスケーラブルな代替手段を提供するが、そのような動画で事前学習されたモデルは、ロボットデータで事前学習されたモデルに一貫して性能で劣る。我々はこのギャップを、欠落した信号、すなわちエゴセントリックな動画における能動的知覚行動に起因すると考える。そこでは人間が操作中に視点を連続的に再配置し、標準的なパイプラインがノイズとして扱うカメラ動作を引き起こす。この問題に対処するために、我々はActiveMimicを提案する。これは、単一の身体装着型RGBカメラから同期されたカメラ軌道と手首軌道を復元し、カメラ動作を視点動作としてモデル化し、対象ロボットに適応する前に実環境でのエゴセントリックな人間の動画から能動的知覚と操作を共同で学習する事前学習フレームワークである。実験的に、多様な能動的知覚要求を持つタスクにわたる実世界実験では、ActiveMimicが人間の動画で事前学習されたベースラインを一貫して上回り、ロボットデータで事前学習された最先端モデルと同等の性能を示す。さらなる分析は、能動的知覚能力がロボット固有の微調整ではなく、エゴセントリックな人間の動画の事前学習に由来する証拠を提供し、能動的知覚がロボット事前学習のためにエゴセントリックな人間の動画を活用する鍵であることを確認する。
対話型運転は、ルール認識型自動運転スタックにおいて見逃されがちな失敗モードを露呈する。非優先エージェントによる小さな合法的譲歩が実現可能性を回復させる場合であっても、自車候補にとってハードルールマージンが負となり得るのである。既存のルールブック、シールド、到達可能性フィルタは安全でない動作を拒否する点で強力であり、一方、予測ベースのプランナーは尤もらしい応答をモデル化する。しかし、いずれも、どの有界なマルチエージェント編集が操作を修復するのか、その編集を誰が所有するのか、その要求が優先権の負担可能範囲内にあるのか、そして要求が遵守されなかった場合にどのような自車フォールバックが残されているのかを記述する実行時証明オブジェクトを返さない。本稿では、この欠落したオブジェクトを*対話型修復認証*として定式化し、自車所有およびエージェント所有の戦術的オペレータからなる有限束上に構築された予測不要の証明レイヤー*CARVE*を導入する。エージェント所有の要求は、運動学的到達可能性と規範的優先権を分離する協調エンベロープ\(B_j(s) = β(π_j)α_j^{\max}(s)\)内でのみ許容される。得られた証明書は、拘束ルール、修復カテゴリ、修復セット、責任加重コスト分割、およびフォールバックを記録する。589のLanelet2ジオメトリに基づくINTERACTIONリプレイエピソードにおいて、CARVE-Greedyは当初拒否された操作の98.64%を受け入れ、人間が解決した378件の誤った拒否のうち370件を回復し、優先権尊重(589/589)、優先エージェントの誤検出ゼロ、および400件のネガティブストレス拒否を維持した。我々は、証明書の健全性、構造的優先権尊重、厳密な有限束最小性、フォールバック偶発性、および責任一貫性条件を証明する。CARVEは他車の従順性を予測せず、要求もしない。提案された対話が、宣言された仮定の下で有界であり、帰属可能であり、規範的に許容可能であるかどうかを証明するのである。
大規模推論モデルは通常、読み取り→思考パラダイムに従う。すなわち、完全な入力を観測し、静的な文脈に基づいて推論を行い、その後回答を生成する。しかし、現実の多くのシナリオは本質的に動的であり、例えば音声や動画のストリームのように、情報が連続的に到着し、モデルは部分観測のもとで推論、更新、応答を行う必要がある。最近のストリーミング推論手法では、モデルが読み取りながら思考することが可能になったが、それらは主に事前構築された軌跡の教師あり模倣に依存しており、柔軟性が制限される。本稿では、適応的ストリーミング推論フレームワークAdaSRを提案する。これは、モデルが入力ストリーミング中に推論を行い、ストリームが完了した後に最終的な熟考を行うことを可能にし、いつ思考すべきか、各段階にどれだけの計算を割り当てるべきかを学習する。この階層的推論プロセスを最適化するために、階層的相対方策最適化(HRPO)を導入する。HRPOは方策最適化をストリーミング推論フェーズと深層推論フェーズに分解し、シーケンスレベルの単一のアドバンテージを全トークンに均一に分配するのではなく、より細粒度のアドバンテージ割り当てを提供する。HRPOは、形式報酬、正確性報酬、適応的思考報酬を統合することで、有効な推論プロトコルを強制し、最終タスク性能を維持し、レイテンシを考慮した計算割り当てを促進する。実験により、AdaSRは教師ありファインチューニングのベースラインと比較して、推論精度、計算効率、ストリーミングレイテンシの間でより良いバランスを達成することが示された。コードはhttps://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSRで公開している。
非構造的刈り込みは疎な重みテンソルを生成するが、標準的な実装ではテンソルの形状が変わらないため、展開されたモデルは刈り込み前よりも小さくならない。我々は最小化と呼ぶ厳密な構造的書き換えを提案する。これは、マスクされたネットワークを、浮動小数点の丸め誤差を除いて同一の順伝播関数を持つ、より小さな密なネットワークに変換する。スクイーズ・リリースサイクルは、刈り込みと最小化を反復し、中間にリリースステップを設ける。このリリースステップでは、圧縮されたテンソル内の正確にゼロの位置を、小さな較正ノイズとして再び有効化し、さもなければ無駄になる容量を訓練可能なパラメータに戻す。連続するサイクルはその容量を利用して、単一パスのみでは到達できない構造的冗長性を見つける。さらに、CompensatedLayerNormを導入する。これは、LayerNormの関数保存型の代替であり、LayerNormを備えた残差ストリームにおけるチャネル削減に最小化を拡張する。スクイーズ・リリースは、全結合モデルネットワークでは非刈り込みモデルと比較して展開可能なネットワークを39倍、現代的なCNN(ConvNeXt-Tiny)では14.8倍に圧縮し、同等の精度を達成する。さらに、この書き換えがトランスフォーマーアーキテクチャにも拡張可能であることを証明する。
大規模で人口統計的にバランスの取れたデータセットは、信頼性の高い神経画像バイオマーカーにとって不可欠である。完全解像度の3D脳MRI合成は、この設定におけるデータ拡張を支援できるが、既存のアプローチは、体積スケールで法外な計算コストを伴うか、解剖学的詳細を損なう可能性のある損失のある潜在圧縮に依存している。その結果、実用的な3D生成的拡張には、しばしば特殊な計算インフラストラクチャが必要となる。我々は、3D Haar離散ウェーブレット変換の係数空間で動作する条件付きフローマッチングフレームワークであるWaveDiTを提案する。本モデルは、因子分解された空間-深度注意と、高次ウェーブレット統計から導出されたバンド別の不均一分散不確実性モデリングを組み合わせる。予測された対数分散は、フロー目的関数と条件付け経路の両方に直接統合され、解剖学的詳細の重い裾を持ち入力に依存する分散構造と一致した適応精度を可能にする。この定式化により、単一の最新GPU上で実用的なメモリと時間の制約の下で、完全解像度の3D合成が可能となる。マルチサイトコホートでの評価は、生成されたMRI分布と実際のMRI分布との間の改善された一致を示し、拡散、潜在、およびウェーブレットベースのベースラインと比較して、下流の脳年齢予測と領域レベルの解剖学的一致の向上を示す。コードはhttps://github.com/sisinflab/WaveDiTで入手できる。
PRECISEでは、予測駆動推論(Prediction-Powered Inference)を拡張し、少数の人間ラベル付きデータセットと大規模なLLM判定データセットを組み合わせることで、ランキング評価指標のバイアス補正推定値を生成する。PPIは、LLM判定器の誤差プロファイルに関係なく、証明可能な不偏性を持つ。アノテーションが文書単位である一方、指標がクエリ単位であるPrecision@Kのような階層的指標に適用可能とするため、出力空間の計算量をO(2^|C|)からO(2^K)に削減した。ESCIベンチマークでは、30件の人間アノテーションにClaude 3 Sonnetの判定を追加することで、Precision@4推定値の標準誤差が4.45から3.50へと低下し(相対減少率21%)、これを実証した。プロダクションシステムでは、本フレームワークが100件の人間ラベルと2時間のドメイン専門家アノテーションから、3つのシステムバリアントの中から最良のものを正確に特定した。A/Bテストにより、この順位が日次売上高で+407ベーシスポイントの向上とともに確認された。