翻訳付きの日次キュレーションされたAI研究論文
世界モデルは、現在の観測と行動に基づいて環境のダイナミクスを予測し、推論や計画の中核的な認知メカニズムとして機能する。本研究では、言語モデルに基づく世界モデリングが、汎用エージェントの限界をさらに押し広げる方法を調査する。(i) まず、エージェント環境シミュレーションのための基盤モデル構築に注力する。我々は、Qwen-AgentWorld-35B-A3B および Qwen-AgentWorld-397B-A17B を導入する。これらは、長いチェーン・オブ・ソート推論を通じて7つのドメインをカバーするエージェント環境をシミュレートできる初の言語世界モデルである。実環境における7ドメインの1,000万以上の環境インタラクション軌跡を活用し、3段階のトレーニングパイプラインを通じて Qwen-AgentWorld を開発した。CPT は状態遷移ダイナミクスと拡張された専門コーパスから汎用的な世界モデリング能力を注入し、SFT は次状態予測推論を活性化し、RL はハイブリッドな評価基準とルール報酬を用いた調整済みフレームワークによりシミュレーションの忠実度を高める。言語世界モデルを評価するために、我々は AgentWorldBench を提示する。これは、5つのフロンティアモデルによる9つの確立されたベンチマーク上の実世界インタラクションから構築された包括的なベンチマークである。実験結果は、Qwen-AgentWorld が既存のフロンティアモデルを大幅に上回ることを示している。(ii) 基盤モデルを超えて、世界モデリングが汎用エージェントを強化する2つの補完的なパラダイムをさらに調査する。第一に、分離された環境シミュレータとして、Qwen-AgentWorld はエージェント強化学習のために数千の実環境のスケーラブルで制御可能なシミュレーションをサポートし、実環境トレーニング単独を超える利得をもたらす。第二に、統一エージェント基盤モデルとして、世界モデルのトレーニングは非常に効果的なウォームアップとして機能し、7つのエージェントベンチマークにおける下流性能を向上させる。コード: https://github.com/QwenLM/Qwen-AgentWorld
私たちはNatureBenchを紹介する。これは、査読付きNatureファミリー論文から抽出された90のタスクからなる学際ベンチマークであり、AIコーディングエージェントが再現から発見へと進み、現実の科学的問題に取り組めるかを評価するために設計された。NatureBenchはNatureGymに基づいて構築されており、NatureGymはソース論文からタスクごとに標準化されたコンテナ化環境を自動構築するパイプラインであり、従来のエージェント研究ベンチマークの信頼性を制限してきた環境断片化問題に対処する。厳格なWeb検索禁止プロトコルの下で10の最先端エージェント構成を評価した結果、最も強力なモデルでもg > 0.1の基準下でタスクのわずか17.8%しかSOTAを超えなかった。手法の経路分析により、エージェントが成功する主な要因は、真の科学的発明ではなく、科学タスクを馴染み深い教師あり予測問題に変換する方法論的翻訳であることが明らかになった。失敗の大半はタスクの誤解ではなく、誤った手法の選択と不十分な計算リソースに起因する。私たちはベンチマーク、NatureGymパイプライン、およびメンテナ側による再現を伴う公開リーダーボードを公開する。コード: https://github.com/FrontisAI/NatureBench
MLLMベースのモバイルGUIエージェントはUI理解とアクション実行において大幅な進歩を遂げてきたが、実際のターゲットアプリに適応させるには依然としてコストがかかる。なぜなら、モバイルアプリは多数存在し、頻繁に更新され、人間が記述したタスク、デモンストレーション、報酬ラベルでカバーすることが困難だからである。既存のアノテーションフリーGUI学習は手動による監督を削減するものの、ターゲットアプリの探索、カリキュラムマイニング、ロールアウト実行、フィードバックを結びつける統一的な基盤を欠いており、ポリシー最適化はしばしば孤立したロールアウトと粗い報酬に依存し、信頼性のある改善シグナルに変換することが難しい。本稿では、モバイルGUIエージェントのためのアノテーションフリー適応システムであるMobileForgeを提案する。MobileForgeは、実際のモバイルアプリインタラクションに基づいてタスク生成とロールアウト評価を行うMobileGymと、軌跡結果、ステップレベルのプロセスフィードバック、修正ヒントをヒント文脈化されたステップレベルGRPO更新に変換する階層的フィードバック誘導ポリシー最適化(HiFPO)から構成される。自動生成されたアノテーションフリー適応データのみを用いて、MobileForgeはQwen3-VL-8BをAndroidWorldで67.2%のPass@3に適応させ、クローズドデータのGUI特化ベースモデルGUI-Owl-1.5-8Bの69.0%に近い性能を達成した。MobileForge適応後のForgeOwl-8BはさらにAndroidWorldで77.6%のPass@3、ドメイン外のMobileWorld GUIのみの分割で41.0%の成功率を達成し、我々の評価において最強のオープンデータモバイルGUIエージェントを確立した。コード、データ、訓練済みモデルはhttps://mobile-forge.github.io/で公開予定である。
MLLMベースのモバイルGUIエージェントは短期的タスクにおいて大きな進歩を遂げていますが、多くのステップやアプリ間の遷移にわたって中間的な情報を保持する必要がある長期的タスクでは依然として信頼性が低いです。我々はこの制限を、各ステップの記録を受動的に蓄積し、プロンプトの爆発的増加と重要なクロスアプリ情報の希薄化を引き起こすReActスタイルのプロンプティングに起因すると考えています。この問題に対処するため、我々はプロアクティブなコンテキスト管理を備えたエンドツーエンドの長期的モバイルGUIエージェントであるMemGUI-Agentを導入します。MemGUI-AgentはContext-as-Action(ConAct)に基づいて構築されており、ConActはコンテキスト管理を、UIアクションを選択するのと同じポリシーによって発行される第一級のアクションとして扱います。履歴を受動的に追加する代わりに、ConActは3つの構造化されたコンテキストフィールド、すなわち折り畳まれたアクション履歴、折り畳まれたUI状態、および直近のステップ記録を維持し、コンテキストをコンパクトに保ちながら重要なUI情報を保持します。プロアクティブなコンテキスト管理をモデルスケール全体で学習可能にするために、我々は教師あり学習とオフライン分析のための完全なConActアノテーションを備えた2,956の軌跡からなるデータセットMemGUI-3Kを構築します。MemGUI-3Kで8Bモデルを訓練することにより、MemGUI-Benchで最高のオープンデータ8Bパフォーマンスを達成し、分布外のMobileWorldベンチマークに一般化する8B MemGUI-AgentであるMemGUI-8B-SFTが生成されます。コード、データ、および訓練済みモデルは https://memgui-agent.github.io/ で公開される予定です。
エージェント型言語モデルはAIの応用範囲を劇的に拡大しているが、幅広い能力を持つエージェント向けのトレーニングデータをどのようにキュレーションするかについては、公に知られていることがほとんどない。SWE-Smith、SERA、Nemotron-Terminalのような既存のオープンな取り組みは、通常、単一のベンチマークを対象としており、多様なエージェント型タスクに汎化するモデルを訓練する方法については未解決の課題が残されている。OpenThoughts-Agent (OT-Agent) プロジェクトは、エージェント型モデルを訓練するための完全にオープンなデータキュレーションパイプラインを提供することで、このギャップに対処する。我々は100回以上の制御されたアブレーション実験を実施し、パイプラインの各段階を体系的に調査することで、タスクソースと多様性の重要性に関する知見を得た。そして、このパイプラインから10万件のトレーニングセットを構築し、Qwen3-32Bをこのデータセットでファインチューニングした結果、7つのエージェント型ベンチマークにおいて平均精度44.8%を達成し、既存の最強のオープンデータエージェントモデル(Nemotron-Terminal-32B、40.9%)を3.9ポイント上回った。さらに、我々のトレーニングデータは優れたスケーリング特性を示し、計算リソースを制御した比較において、あらゆるトレーニングセットサイズで他のオープンデータセットを上回る性能を発揮した。トレーニングセット、データパイプライン、実験データ、モデルをopenthoughts.aiで公開し、エージェント型モデル訓練に関する今後のオープンな研究を支援する。
AIエージェントは、ツールの自律的な呼び出し、情報の抽出、メモリ管理、アプリケーションやデータソースにまたがるタスクの完了を可能にし、新たなソフトウェアパラダイムを推進している。しかし、既存のエンドユーザー向けオペレーティングシステム(OS)のほとんどは、アプリケーション中心のワークフロー向けに設計されており、AIエージェントをネイティブにサポートする機能はほとんど備わっていない。このミスマッチはエージェントの幅広い普及を制限し、従来のシステム上でエージェントを実行する際に実行オーバーヘッドや安全性リスクを招いている。エージェントネイティブOSの概念は台頭しつつあるものの、研究コミュニティには、エージェント媒介型インタラクションに求められるアーキテクチャ上のプリミティブを探求するためのオープンなテストベッドが不足している。本稿では、Android Open Source Project(AOSP)を基盤に構築されたOSレベルのエージェントハーネスであるAOHP(Android Open Harness Project)を提案する。AOHPの核となる設計思想は、エージェントを第一級のOS主体として扱い、適応型ユーザーインターフェースやエージェントに適した実行環境を実現することである。AOHPは成熟したAndroidのソフトウェア・ハードウェアエコシステムを維持しつつ、エージェント指向の3つのシステム機構(パーソナライズされたサービス構成、効率的なエージェントインターフェース、セキュアな情報フロー)を導入する。OSエージェントの主要な機能を網羅する難易度の高いタスクを用いた予備実験において、AOHPはタスク完了率(+21.12%)、実行コスト(トークンコスト-51.55%)、セキュリティポリシー準拠の点で明確な優位性を示している。
精神疾患は世界中で高い有病率を示しているが、精神科医の不足や面接による診断に内在する主観性により、タイムリーで一貫性のある精神保健評価には大きな障壁が存在する。AI支援による精神科診断の進展は、現実的な患者シミュレーション、臨床医が確認した診断ラベル、動的なマルチターン診察への対応を同時に提供するベンチマークが欠如していることによって制約されている。本稿では、中国語における静的診断推論と動的マルチターン精神科診察の両方でLLMを評価する、大規模マルチエージェントベンチマークであるLingxiDiagBenchを紹介する。その中核をなすのがLingxiDiag-16Kであり、12のICD-10精神科カテゴリーにわたる実際の臨床的人口統計学的分布および診断分布を再現するように設計された、EMRに準拠した合成診察対話1万6000件からなるデータセットである。最先端のLLMを用いた広範な実験を通じて、以下の重要な知見を得た。(1) LLMはうつ病と不安障害の二値分類では高い精度(最大92.3%)を達成するが、うつ病と不安障害の併存症認識(43.0%)および12クラスの鑑別診断(28.5%)では精度が大幅に低下する。(2) 動的診察は静的評価よりも低いパフォーマンスを示すことが多く、非効率な情報収集戦略が下流の診断推論を著しく損なうことを示唆している。(3) LLM-as-a-Judgeによって評価された診察の質は、診断精度と中程度の相関しか示さず、適切に構造化された質問だけでは正しい診断判断が保証されないことを示唆している。再現可能な研究を支援するため、LingxiDiag-16Kと完全な評価フレームワークをhttps://github.com/Lingxi-mental-health/LingxiDiagBench で公開する。
単一画像から探索可能な3Dシーンを生成するには、強力な生成的事前知識と、下流用途に適した正確な幾何学的表現が必要となる。現在のビデオ拡散モデルは高品質な生成を実現し、潜在空間に多視点幾何構造を暗黙的に符号化している。しかし、既存のフィードフォワード型潜在シーンデコーダは通常、明確な表面を持たないボリューメトリックな3Dガウス分布を出力するため、シミュレーションや標準的なグラフィックスパイプラインでの利用が制限される。このことから、レンダリング可能であるだけでなく、明示的な幾何アセットにより近い、表面に沿ったプリミティブを復号することが動機となる。本研究では、圧縮されたビデオ拡散潜在表現を直接、明示的な表面プリミティブに単一パスでマッピングできるかを問う。この目的のために、我々はFLATを導入し、初めてビデオ拡散潜在表現から直接三角形スプラットを復号できることを示す。3Dガウス分布の復号と比較して、平坦なプリミティブの予測は、プリミティブの向きに対する感度が高く、勾配の流れが悪くなりがちであるため、格段に困難である。FLATは、2つの重要な要素によってこれを解決する:三角形回帰のためのレイ中心の回転パラメータ化と、微分可能な三角形レンダリング中の勾配流を改善する新しい積窓関数(product window function)である。標準的なベンチマークにおいて、FLATは最先端のフィードフォワードベースラインと比較して、競争力のある視覚品質を維持しつつ、幾何学的精度を大幅に向上させる。さらに、軽量なテスト時最適化ステップにより、予測された三角形スープを、完全に不透明でゲームエンジン対応の表現に変換し、リアルタイムレンダリングをサポートすることを示す。同一の訓練設定で3DGS、2DGS、および三角形スプラットの各変種を評価することにより、フィードフォワード型シーン生成における表現のトレードオフに関する初の体系的解析を提供する。プロジェクトページは https://flat-splat.github.io で公開されている。
現代のテキスト画像生成モデルは、視覚的忠実度とプロンプト遵守において優れている。しかし、この厳格な忠実さは多様性を犠牲にしており、生成サンプルは単一の視覚的解釈に収束しがちである。既存の多様性改善手法では、意味のあるデザイン選択ではなく偶発的な変動に駆動された出力が生成される。このことから、生成サンプルに構造を課すという多様性タスクの新たな変種が動機付けられる。我々は制御された多様性を実現する手法を導入し、セマンティックブラウジングを可能にする。これによりユーザーは構造化された画像ギャラリーをナビゲートし、意味があり解釈可能な変動軸を系統的に探索することで、創造的な探求を体験できる。このレベルの意味的制御を達成するには、シーンを深く理解する必要がある。我々は、最近のテキスト画像生成モデルが詳細なキャプションで学習されており、意味的な意思決定をピクセル生成から実質的に切り離しているという事実を活用する。これによりパラダイムシフトが可能となり、テキスト画像生成モデル内の確率的変動に依存する代わりに、テキストレベルで直接多様性を誘発する。豊かなテキスト表現を活用することで、ビジョン言語モデル(VLM)がシーン全体のコンテキストで動作できるようにする。標準的なVLMに典型的な汎用的出力を克服するために、我々は元のプロンプトに調和した構造化された変動を明示的に強制するエージェント型ワークフローを採用する。本手法は、多様でナビゲーション可能なデザイン空間を生成し、その空間内のすべての変動が、ユーザーが理解可能な特定の意味的な決定に対応することを実証する。
エージェントとは何か。主体性(エージェンシー)は何によって構成されるのか。「コーディングエージェント」「AI共同研究者」、その他「エージェンティック」なツールとして販売され、生産性向上を約束する大規模言語モデル(LLM)システムの台頭、そして同時に、人間の制御を超え破壊力を持つAIが、推測上の「機械エージェンシー」によって人間に対抗するといった「実存的」懸念が高まるなか、自動化と主体性の境界を明確にすることは、能力あるシステムを構築するためにも、何を、またそもそも恐れるべきかを理解するためにも不可欠となっている。本稿では、主体性を独立した思考に基礎づけたデカルトの議論や、SF作品における自律的存在の描写を参考にしながら、現在のAIエージェントの状況を概観し、エージェントアーキテクチャを「目標」「アイデンティティ」「意思決定」「自己調整」「学習」の5つの次元に沿って分析する。具体的には、真の主体性にはこれらの構造が外部の足場を通じて組み立てられるのではなく、システム自体に内面化される必要があると論じる。能力が工学的なワークフローに依存するエージェント的(agentic)システムと、(社会的相互作用を含む)能力が内生的に生じるエージェンティブ(agentive)システムとの区別は、所定のタスク向けに設計されたシステムと、真の自律性をもって開かれた世界で動作可能なシステムとの境界を定義する。この分析に基づき、汎用エージェントモデルとして、目標-アイデンティティ-コンフィギュレータ(GIC)アーキテクチャを提案する。これは、階層的な目標分解、アイデンティティの進化、別途学習された世界モデルに基づくシミュレーション推論、学習された自己調整、そして実体験およびシミュレーション体験の両方からの自己主導的な学習を組み合わせるものである。さらに、より大きな自律性と「主体性」を持ちながらも人間の監督下にあるエージェンティブシステムの、監査可能性、制御可能性、安全性に関する知見を共有する。
連合学習(FL)における潜在拡散モデル(LDM)の訓練は、LDMの強力な生成能力とFLのプライバシー保護特性を組み合わせる能力により、注目を集めている。しかしながら、FLではグローバルモデルを複数の参加者と共有する必要があり、悪意のあるクライアントによる無許可のモデル配布や再販のリスクが生じる。直感的なアプローチとして、FLにおけるLDMに対して既存のVAEベースの透かし技術を採用することが考えられるが、この戦略は二つの根本的な課題により脅威への対処が不十分である:(1)既存手法は所有権検証をサポートするが、モデル漏洩を特定の悪意あるクライアントに追跡する能力が欠けている。(2)VAEベースの透かしは脆弱であり、デコーダをクリーンなものに置き換えるだけで除去できる。 本論文では、連合LDMにおける所有権検証と漏洩追跡のための最初のフレームワークであるFedOTを提案する。具体的には、最初の課題に対処するため、分割された透かしを設計する。最初の部分は所有権検証用であり、二番目の部分はクライアント識別に使用される。さらに、二番目の課題を克服し、VAE置換攻撃からモデルを保護するために、潜在ベクトル変換(LVT)を導入する。これは、VAEの元の潜在分布を変更することにより、VAEとU-Netの潜在空間間の接続を強化する。その結果、透かし除去のためにVAEを置き換えようとすると、画像品質が著しく低下し、LDMモデルが使用不可能になる。広範な実験により、FedOTが所有権検証と追跡可能性の両方において優れた性能を達成することが示された。プロジェクトページ:https://spyzixuan.github.io/FedOT/。
経験駆動型の自己進化は、大規模言語モデル(LLM)エージェントがオープンワールドインタラクションを通じて改善するために不可欠である。しかしながら、既存の経験学習手法の多くは単一エージェントループに依存しており、同一エージェントがタスクを実行し、結果を要約し、記憶内容を決定する。この設定により、エージェントは自己確証の罠に対して脆弱になる。すなわち、誤っているが自己無撞着な軌跡が成功体験として誤認され、検索・再利用時に累積誤差を生じるのである。この問題に対処するため、我々は信頼性の高い経験学習を実現するフレームワークEDV(Execute-Distill-Verify)を提案する。Execute段階では、複数の異種エージェントが同一タスク空間を並列に探索し、多様な候補軌跡を生成する。Distill段階では、専任の第三者的エージェントがこれらの軌跡を比較分析して候補経験を生成し、実行主体による要約バイアスを低減する。Verify段階では、実行グループがコンセンサスメカニズムを通じて候補を検証し、承認された経験のみが共有メモリまたはプライベートメモリに書き込まれる。3つの段階を分離することで、EDVは経験学習を孤立した自己内省から協調的構築へと変革し、記憶に挿入される前に誤った内容やノイズをフィルタリングする。我々はEDVを、tau2-bench、Mind2Web、MMTBの3つの難易度の高い長期的ベンチマークで評価した。結果は、EDVが強力なベースラインを一貫して上回り、頑健なエージェント自己進化には信頼性の高い経験構築が不可欠であることを実証している。コードはhttps://github.com/shidingz/EDVで公開している。
テキストから画像を生成する(T2I)モデルは、自然言語のプロンプトから視覚的に現実的な画像を生成する点で顕著な進歩を遂げている。しかしながら、その成功が真の因果的理解を反映しているのか、それとも視覚・テキスト間の相関にわたる洗練されたパターンマッチングに過ぎないのかは、依然として明らかではない。ラッセルの帰納主義の七面鳥に着想を得て、我々はCounterfactual-World(CF-World)を導入する。これは、テキストから画像を生成するモデルが、現実世界の事前知識と体系的に矛盾するルールの下で画像を生成できるかどうかを調査するために設計された反事実ベンチマークである。CF-Worldは、各シナリオを以下の三段階のレベルに整理する:通常の世界知識に基づく事実生成、直接的な視覚指示による明示的反事実生成、および変更されたルールからの因果推論を必要とする暗黙的反事実生成である。我々は、Vision Language Model(VLM)ベースの評価器(CF-Eval)を用いて、オープンソースおよびクローズドソースのT2Iモデルを評価する。さらに、我々は二つの指標を導入する:固定化された現実世界の事前知識を克服するモデルの能力を測定するPrior Resistance Rate(PRR)と、明示的な視覚的手がかりなしに推論に依存した反事実生成を維持できるかどうかを評価するReasoning Retention Rate(RRR)である。実験結果は、すべてのモデルが事実設定から反事実設定への急激な性能低下を示すことを明らかにしている。さらなる分析は、これらの失敗は、現在のT2Iモデルが世界知識と視覚的外観を密接に結合したパターンとして符号化していることに起因することを示唆している。その結果、訓練データ内の頻繁な視覚的共起への過度の依存により、反事実世界を描画するタスクにおいて、慣れ親しんだ常識的な事前知識にデフォルトせざるを得なくなる。
画像生成における拡散トランスフォーマー(DiT)研究は、ImageNetにおけるクラス条件付き生成という単一の評価設定に収束しています。手法の改善によってFIDや関連指標は向上していますが、それらが生成モデリングにおける真の進歩を反映しているかどうかは、ますます不明確になっています。当然の代替案であるテキスト条件付き画像(T2I)生成は、訓練や評価にコストがかかりすぎる、または不便と認識され、しばしば省略されています。しかし、我々はこの認識がもはや正しくないと主張します。本稿では、統合的なDiT訓練・評価フレームワークであるNanoGenを紹介します。NanoGenはImageNet上で最先端のDiTベースラインに匹敵する性能を達成し、設定変更わずか12行で競争力のあるT2Iモデルも訓練できます。現在、ImageNetおよびT2I設定の両方において、RAE、VAE、ピクセル空間、MeanFlow拡散法をサポートしています。NanoGenでは、T2I訓練に必要な計算リソースはImageNetと同等です。NanoGenを用いて21の潜在拡散モデルを訓練した結果、手法の順位付けはImageNetとT2I生成の間に強い相関を示さないことが観察されました。ピアソン相関係数は3つの指標で-0.377から-0.580の範囲でした。これは、クラス条件付きImageNetのFIDを改善する手法がT2Iでも対応する改善を示さない可能性を示唆しており、両方のタスクでDiTを評価する必要性を明確に示しています。この目的のために、ImageNetとT2Iの結果をまとめた統合的なベンチマーク、DiffusionBenchを提示します。我々はImageNet単独ではなく、DiffusionBenchを報告することを推奨します。DiffusionBenchを改善する手法は、より広範な進歩を反映する可能性が高いと考えられます。
視覚的数学的推論のための強化学習のスケーリングには、単に難しい問題を生成する以上のことが求められる。データ量が増大するにつれて、報酬ラベル自体の信頼性を維持しなければならない。しかし、既存のデータパイプラインはラベラを信頼したまま監視をスケールしており、方策側の手法は基礎となる回答がすでに正しいことを前提としている。本稿では、スケーリングを検証可能なデータ構築問題として捉え、方策を更新する前に、経路固有の進化演算子によって拡張されるプロンプトの難易度と、オフラインの仮説検証による反証によって強制される回答の信頼性という2つの軸を分離する。この考えを具体化したのが、拡張可能な2つのコンポーネントからなる反復的フレームワークVeriEvolである。すなわち、低難易度の画像・問題シードをより難しい画像に基づくプロンプトに書き換える型認識進化モジュールと、複数ソースからの反証がその回答を覆せなかった場合にのみ受け入れる検証器HTV-Agentである。得られた検証済みデータは、量をスケールでき、進化経路や検証器チャネルを追加することで拡張できる。また、既存のGRPOスタイルの強化学習レシピに直接組み込める。5つのベンチマークからなる視覚数学スイートにおいて、進化型SFTデータを1万サンプルから25万サンプルに拡大すると、平均精度が35.42から54.73に向上した。さらに、基盤モデル、SFT初期化、GRPOレシピを固定した状態で、VeriEvolは進化を行わない強化学習ベースラインに対して累積+3.88ポイントの改善を示し、その内訳は進化型プロンプトが+1.82ポイント、HTV-Agent検証器が+2.06ポイントであった。プロンプト、データ、モデル、コード、そして全サンプルの完全な検証器トレースを公開する。これにより、下流の研究は出力を検査するだけでなく、パイプライン全体をスケールし監査できるようになる。
訓練データの構成は、そのソースの多様性と混合戦略によって決定され、大規模言語モデル(LLM)の事前学習における基盤である。オンラインデータ混合(ODM)は、訓練中にデータ混合を適応的に調整する手法であり、効率性を向上させる有望な方向性として注目されている。しかし、既存手法は単一の最適化視点に依存するという制約があり、複雑なLLM事前学習ではデータ構成を多次元から動的に考慮する必要があるという本質的な課題を見過ごしている。この限界を克服するために、我々は新たなオンラインデータ混合フレームワークである Holistic Data Scheduler(HDS)を提案する。HDSはデータスケジューリングの問題を連続制御空間における強化学習問題として定式化し、その安定性とサンプル効率の高さからSoft Actor-Critic(SAC)アルゴリズムを高次元の政策空間の探索に活用する。HDSの中核には、三つの重要な観点——品質を評価するデータ駆動型報酬、ドメイン間の影響を捉える損失駆動型報酬、そして重みノルムに基づくモデル駆動型報酬——を統合した、新規な多目的・総合的報酬関数が存在する。本設計の検証と最適構成の決定のため、我々は様々な規模のLLMに対して系統的な実験を実施した。The Pileベンチマークにおいて、HDSは次善手法の最終検証パープレキシティを44%少ない訓練反復回数で達成した。さらに、MMLU 0-shotタスクでは7.2%の改善に加え、他のベンチマークでも一貫した性能向上を示し、訓練効率と最終的なモデル能力の両方を向上させる能力を実証している。
密集検索埋め込みモデルは、現代の検索ベースAIシステムにおける基本的な構成要素である。ほとんどの密集検索器は対照学習の目的関数で訓練されており、そのためにはラベル付きの正例・負例の文書ペアが必要となるが、それらはコストが高く入手が困難なことが多い。本研究では、大規模言語モデル(LLM)の自己回帰型次トークン予測目的関数が、密集検索に教師信号を提供できるかを調査する。その直感は単純である。すなわち、文書がクエリに関連する情報を含んでいれば、その文書を条件とすることでLLMがターゲット出力を予測しやすくなるはずだ、というものである。ここでの重要な課題は、次トークン予測損失がLLM内部で計算される一方で、検索器は別個の埋め込みモデルである点にある。この課題に対処するため、我々はDREAM(Dense Retrieval Embeddings via Autoregressive Modeling)を提案する。これは、検索器が生成したクエリ-文書類似度スコアを、凍結されたLLMの選択されたアテンションヘッドに注入する手法である。訓練中、これらのスコアは、LLMがターゲット出力を予測する際に各候補文書が受けるアテンションの量を決定する。結果として得られる予測損失は、アテンション機構を通じて検索器の訓練に勾配を提供する。我々は、0.5Bから3Bパラメータの埋め込みバックボーンを用いて、検索ベンチマークBEIRおよびRTEBでDREAMを評価した。DREAMは、異なるモデル規模において既存のベースラインを一貫して上回る。これらの結果は、DREAMが自己回帰型モデリングを通じて密集検索器を訓練する有望なアプローチであることを示している。
クロスチャート検索拡張生成(RAG)は、科学、ビジネス、政治領域における複雑なマルチモーダル分析タスクにとって極めて重要である。しかし、既存のベンチマークは、構造化されテキスト化されたテーブルに焦点を当てるか、または単に重要箇所を抽出することでクロスチャート質問を生成するため、クエリと証拠の間に語彙的重複を生じさせ、論理的に一貫性のない推論連鎖をもたらすことが多い。この問題に対処するため、我々はChartWalkerを提案する。これは、困難なクロスチャートRAGタスクを構築するための新規フレームワークである。ChartWalkerは、チャートに特化した階層的知識グラフ構築手法を備えており、エンティティと関係を粒度ごとに整理して分析構造を保持する。さらに、構造を考慮したサンプリングアルゴリズムを提案する。これは意味的に一貫したマルチホップ推論経路を合成し、QA生成におけるクエリの難易度と粒度を明示的に制御可能にする。このフレームワークに基づき、多様なドメインとクロスチャートクエリタイプを網羅する包括的なベンチマークであるChartWalker-Benchを公開する。主要なRAGパラダイムにわたる広範な評価により、顕著な性能格差が明らかになり、ベンチマークの難易度と有用性が強調される。さらに、分析を促進し将来のシステム設計に着想を与えるエージェンティックベースラインとして、ChartWalker-Agentを提供する。
アテンションに基づくマルチインスタンス学習(MIL)アグリゲーターを医用画像に適用すると、アテンションが特定の領域に集中しやすい傾向があり、過信かつ不安定な予測を引き起こします。本論文では、これを解決するために、ゲート付きトランスフォーマーアグリゲーターであるQG-MILを提案します。QG-MILは、以下の4つの相乗効果を持つアーキテクチャコンポーネントを備えています:RMSNormに基づく事前正規化、ヘッド単位のQK正規化、きめ細かいアテンション出力ゲーティング、そしてSwiGLU形式のフィードフォワードモジュールです。これらの設計上の選択が相まって、学習の安定性を向上させ、補助的な損失関数、マスキング、多段階の正則化を必要とせずに、インスタンス全体により均等にアテンションを分散させます。我々は、ホールスライド病理学と細胞レベルの血液学の6つのベンチマークを用いてQG-MILを評価し、これらは本質的に異なる2つのMILスケールをカバーしています。最も性能の良いQG-MILの変種は、全6つのベンチマークで最先端のベースラインを上回り、平均マクロF1スコアで+6.1ポイントの改善を達成しました。アテンションオーバーレイとアテンション質量分析により、より分散されたインスタンス重み付けが確認されました。アブレーション研究では、特定のデータセットにおいて個々のコンポーネントが完全なモデルに匹敵する場合があるものの、QG-MILの設計は、選択されたベースラインと比較した場合、最も一貫したクロスドメイン性能と最も狭い分散を提供することが示されました。再現性を支援するため、設定可能な実装を https://github.com/unica-visual-intelligence-lab/QG-MIL で公開しています。
マルチモーダルな偽情報検出の重要性が高まっています。なぜなら、拡散される投稿には現在、長大な多言語ナラティブ、複数の画像、多様な出典、そしてテキストと画像の微妙なフレーミングの誤りが組み合わされているからです。既存のベンチマークや手法は、この状況に十分に対応できていません。通常、短いキャプション、単一画像、二値ラベル、または単一の操作ソースに限定されており、現実的なエビデンス探索の下ではエージェント型検証が依然として高コストです。本論文では、現実的な多言語・複数画像対応のエージェント型検証フレームワークであるReMMDを提案します。ReMMDには、500サンプル、2,756枚の画像、5つの単一言語、2つの言語横断設定、3つのテキスト長レベル、複数画像投稿、5段階真偽ラベル、8種類の歪みラベル、エビデンスの出典、および根拠を含む、実世界のマルチモーダル偽情報検出ベンチマークReMMDBenchが含まれます。また、持続的メモリを持つ検証器ReMMD-Agentも含まれており、投稿を原子的事実に分解し、再利用可能なエビデンスセットを構築し、構造化されたL1/L2/L3出力を予測します。プロプライエタリシステム、オープンLVLM、MMD-Agent、T2-Agentと比較して、ReMMD-Agentは5段階真偽分類で最高性能を達成し、GPT-5.2を用いて精度41.80%、マクロF1値39.12%を記録するとともに、MMD-Agent比17.5%、T2-Agent比79.9%のコスト削減を実現しました。プロジェクトはhttps://dang-ai.github.io/ReMMDで公開しています。
メモリは長期的なロボット操作における重要なボトルネックであり続けている。標準的なVision-Language-Action(VLA)ポリシーは、タスクに関連する手がかりが時間経過とともに遮蔽されたり観測不可能になったりすると、しばしば失敗するからである。既存のメモリ拡張手法は履歴コンテキストを利用するものの、深刻な情報ボトルネックに悩まされるか、分離されたデュアルシステムによる高レイテンシを招くか、あるいは膨大な視覚的冗長性を蓄積する非選択的バッファに依存している。これらの制限に対処するため、我々はスパースな視覚証拠メモリの概念に基づくエンドツーエンドフレームワークであるEventVLAを導入する。これは2つの中核コンポーネントから構成される。初期および短期コンテキストを保持するための基礎的視覚アンカーと、動的キーフレーム証拠メモリ(KEM)モジュールである。具体的には、KEMはVLAの潜在埋め込みから将来のキーフレーム確率を直接予測し、スパースでタスクに重要な視覚イベントを自律的に捕捉・保存する。この先見性に基づくメカニズムにより、ポリシーは現在の観測の将来の因果的有用性を動的に評価し、観測不可能になる前に一時的な視覚証拠を保存することが可能になる。さらに、我々はインタラクティブな視覚証拠を用いた非マルコフ操作タスクを評価するために特別に設計された診断用ベンチマークRoboTwin-MeMを提案する。広範な評価により、メモリを必要とする17のシミュレーションタスクと4つの実世界の両腕操作タスクにおいて、EventVLAは最先端のメモリ拡張VLAと比較して平均成功率が+40%向上することを示している。
汎用価値モデルは、大規模で質の混在したデータからのロボットポリシー学習を拡張する上で極めて重要な役割を果たします。数学的に、正確な価値推定には深い時間的洞察が必要であり、モデルは過去の文脈を用いて現在の信念を基盤とし、将来の結果にわたって計画を立てることが求められます。しかし、既存のロボット価値モデルの大部分は、主に静的または時間的に疎な視覚観測で事前学習されたVision-Language Model(VLM)バックボーン上に構築されており、価値推定に必要な時間的モデリング能力を欠いています。VLMとは異なり、世界モデルは時間的モデリングと将来計画に自然に優れており、汎化可能な価値関数を学習するための理想的な基盤となります。この洞察に基づき、我々は世界モデルと価値推定を融合させ、データ品質を評価するための正確なタスク進捗を提供する新しい汎用ロボット価値モデル、World Value Model(WVM)を構築します。標準ベンチマークにおいて、WVMは最先端(SOTA)のValue-Order Correlation(VOC)結果を達成します。エキスパートデータのみを含む標準評価スイートを補完するものとして、我々はさらにSuboptimal-Value-Benchを導入します。これは、高忠実度で人間がラベル付けしたフレームアノテーションを備えた800の準最適な軌道からなるマルチエンボディメントベンチマークです。我々の評価により、WVMはSuboptimal-Value-BenchにおいてもSOTA性能を維持し、エキスパートデータと準最適データの両方を扱う堅牢性を確立しています。ポリシー学習に展開されると、WVMはシミュレーション環境と実世界展開の両方において、さまざまなポリシー抽出手法にわたって操作性能を向上させ、質の混在したデータからの学習に対して堅牢な指針を提供します。
マルチモーダル運転計画は、長年にわたり二つのパラダイム間の緊張関係に直面してきた。スコアベース手法は密な報酬監視の恩恵を受ける一方で固定された動作語彙に制約され、アンカーベース手法は動的に提案を生成するものの、単一の正解軌跡に制限された疎な監視に悩まされる。本研究では、この緊張関係を解消するため、シミュレーションベースの報酬を識別的な目標から生成的条件へと再構成するFlowR2Aを提案する。フローマッチングデコーダを用いて密な軌跡-報酬ペアから報酬条件付き行動分布を学習することで、FlowR2Aはスコアベース手法の密な監視とアンカーベース手法の提案生成を単一の生成モデル内で統一し、安全性、進行度、快適性、ルール遵守において行動とその結果との相関をモデルに内部化させる。厳格な安全性制約と緩やかな進行目標のバランスを取るために、細粒度のタイムステップごとの報酬条件付けと報酬ノイズ拡張を導入する。この生成的定式化は、報酬ガイダンスとアンカーサンプリングによるテスト時の制御可能なサンプリングを自然にサポートし、高品質な提案を生成する。FlowR2AはNAVSIM v1およびv2ベンチマークで最先端の結果を達成し、従来手法よりも大幅に高品質なマルチモーダル提案を実現する。
不確実性を伴うマイクログリッドにおける最適な容量設計と電力スケジューリングの問題は、制御分野において広く知られている。一般的に、この最適制御問題は、エネルギー貯蔵システムに生じる論理制約をモデル化するために混合整数計画問題として定式化され、その後、シナリオ手法などの数値手法を用いて近似的に解かれる。本論文では、論理制約と、ユーザーの電力需要、太陽光発電量、系統電力価格、およびバッテリー効率における不確実性を伴う、ロバストなマイクログリッドの容量設計と電力スケジューリングの最適制御問題に対して、2つの定式化を提案し比較する。1つ目の定式化は、バイナリ変数とBig-M制約を用いた混合整数線形計画問題である。2つ目の定式化は、論理制約の厳密な平滑再定式化(追加のモデル化変数と非凸制約から成る)を通じて、問題を連続非線形計画問題として表現する。さらに、既存の手法を拡張した新たな局所縮約アルゴリズムを提案し、両方の問題を解く。これらの2つの定式化は、局所縮約によって得られた解を10万サンプルのモンテカルロシミュレーションを用いて評価することにより比較され、両方とも平均実行可能率が90%を超える有望な結果が得られた。
視覚-言語-行動(VLA)モデルはデモンストレーションから操作スキルを学習できるが、その能力は訓練データに含まれるスキルに制約される。本稿では、VLAをプリミティブ行動レベル(例:「グリッパーをボウルに移動」「上方に持ち上げる」「ボトルを注ぐ」)で操作可能にすることで、自律的なスキル獲得を実現するフレームワークInSightを提案する。InSightは主に2つの段階から構成される。(1) VLMによる計画分解とエンドエフェクタの姿勢を利用してデモンストレーションをラベル付きプリミティブに分割し、VLAのプリミティブ操作可能性を可能にする自動セグメンテーションパイプライン。(2) 新しいタスクを達成するために必要な不足プリミティブを特定し、VLMが提案する低レベル制御を用いて不足プリミティブのデモンストレーションを自律的に試行し、成功したデモンストレーションに自動的にラベル付け、保存、そしてVLA訓練セットに統合するVLM誘導型データフライホイール。我々はInSightを、ブロック反転、引き出し閉鎖、掃き掃除、ねじり、注ぎなどの目標スキルに対する人間のデモンストレーションなしで、シミュレーションおよび実世界の操作タスクにおいて評価した。一度学習されると、これらのプリミティブは追加の人間によるデモンストレーションなしで、新規の長期的タスクを実行するために組み合わせることができる。我々の発見は、プリミティブの操作可能性がVLAポリシーにおける継続的スキル獲得の実用的な基盤を提供することを示している。プロジェクトウェブサイト: https://insight-vla.github.io
スパースボクセル表現は、画像から3次元ガウシアンスプラッティング(3DGS)生成におけるスケーラブルな基盤として注目されているが、現在の手法は二つの構造的なボトルネックにより、入力画像の高周波の視覚的詳細を保持することが難しい。第一に、セマンティック抽象化に最適化された識別的な2D特徴を採用してスパースボクセル潜在変数を構築するため、再構成的な手がかりが抑制され、表現のボトルネックが生じる。第二に、生成段階において標準的な拡散トランスフォーマーは、密な2D画像トークンとスパースな3Dボクセル潜在変数を効果的に整列させる機構を欠いており、クロスモーダル対応のボトルネックが生じる。これらの問題に対処するため、本稿ではFLUX3Dを提案する。これは、生成時の表現学習とクロスモーダル整列の両方を強化するスケーラブルな画像から3DGSへのフレームワークである。まず、スパースボクセルベースの3D表現学習における2D特徴選択を再検討し、拡散整列構造化潜在変数(DA-SLAT)を提案し、これをデコーダのみのアーキテクチャと組み合わせて3DGS再構成品質を向上させる。さらに、スパース構造認識拡散フレームワークを設計し、スパース構造マルチモーダル拡散トランスフォーマー(SMDiT)とモーダル認識回転位置埋め込み(MARoPE)を統合することで、幾何非依存の2D-3D整列を実現する。広範なベンチマーク実験により、FLUX3Dは外観忠実度において大幅な改善を示し、高品質な3DGSアセット生成において全ての最先端(SOTA)手法を大きく上回ることを実証する。
大規模言語モデルは、パラメトリック知識から回答するのではなく、文書を基に推論するエージェントとして展開されることが増えている。本研究では、アーカイブに基づく推論(archive-grounded reasoning)を扱う。すなわち、大規模で雑多な職場ファイル群から散在する証拠を特定し、不統一な用語、単位、時間表記を調整し、答えを導き出すことである。既存のベンチマークはこの設定の一部しか対象としておらず、アーカイブ基盤性、エージェントによる探索、クロスドメインカバレッジを同時に重視するものは存在しない。 本稿では、ベンチマーク「Agora」を導入する。これは362の質問と、9,664件の本物の文書と3億7,200万トークンからなる8つのドメインコレクションを組み合わせたものであり、どのモデルのコンテキストウィンドウもはるかに超えるため、エージェントは網羅的にスキャンするのではなく、意図的に探索しなければならない。Agoraは、クロスドキュメントタスク合成、リーク防止の難読化、難易度フィルタリングを組み合わせたエージェント型パイプラインによって構築されている。 8つのモデルを評価した結果、このタスクは解決にはほど遠いことが明らかになった。最強のモデルでも精度は59.4%にとどまり、ドメイン間で顕著なばらつきが見られる。
動的3Dガウススプラッティングは、動作一貫性と視覚的忠実度の間に根本的なトレードオフを抱えている。変形ベース手法は時間的対応を維持するものの、動作の過剰な因子分解により高周波ダイナミクスを平滑化しすぎる。一方、4Dプリミティブ手法は微細な視覚的詳細を捉えるが、時間的過パラメータ化を引き起こし、物体同一性を損ない、深刻なストレージオーバーヘッドをもたらす。この問題を解決するために、我々はマルチレベルの競合的割り当てに基づく高忠実度動的ガウススプラッティングフレームワーク「Multi4D」を提案する。単一の表現に頼るのではなく、モデリング能力を3つの構造化レベル(静的構造、持続的動的幾何、過渡的外観プリミティブ)に分散する。共有ラスタライゼーションと残差駆動最適化を通じて、これらのレベルは動的に競合して光度誤差を説明し、事前に分割を割り当てることなく適応的特殊化を可能にする。この割り当てにより、長期的動作一貫性を維持しつつ微細な動的詳細を捉え、動的プリミティブを大幅に削減しながら、最先端のレンダリング品質とリアルタイムパフォーマンスを実現する。さらに、我々の表現は時間経過にわたってコンパクトな持続的ガウスを明示的に追跡するため、後からセマンティック特徴を埋め込むことが可能となり、Multi4Dは最先端の4Dセグメンテーション精度を桁違いの高速化で達成する。プロジェクトページ:https://batfacewayne.github.io/Multi4D.io/