翻訳付きの日次キュレーションされたAI研究論文
Mixture-of-Experts(MoE)モデルは、エキスパートの能力とルーターの決定を適切に整合させる明示的な制約を欠いており、これが最終的にモデル性能を制限している。この問題に対処するため、我々はエキスパートとルーターを緊密に結合する軽量な補助損失関数であるexpert-router coupling(ERC)損失を提案する。本手法では、各エキスパートのルーター埋め込みを、そのエキスパートに割り当てられたトークンの代理トークンとして扱い、摂動を加えたルーター埋め込みをエキスパートに入力して内部活性化を取得する。ERC損失はこれらの活性化に対して2つの制約を課す:(1)各エキスパートは、他のエキスパートの代理トークンよりも自身の代理トークンに対して高い活性化を示さなければならない。(2)各代理トークンは、他のエキスパートよりも対応するエキスパートから強い活性化を引き出さなければならない。これらの制約は共同して、各ルーター埋め込みが対応するエキスパートの能力を忠実に表現すると同時に、各エキスパートが実際にルーティングされたトークンの処理に特化することを保証する。ERC損失は計算効率が高く、n個のエキスパート数に対してn^2個の活性化のみで動作する。これはバッチサイズに依存しない固定コストであり、トークン数(バッチあたり数百万規模になることが多い)に比例してスケールする従来の結合手法とは異なる。3Bから15Bパラメータ規模のMoE-LLMを用いた事前学習と、数兆トークンにわたる詳細な分析を通じて、ERC損失の有効性を実証する。さらにERC損失は、訓練中のエキスパート特化レベルを柔軟に制御し定量的に追跡する機能を提供し、MoEの理解に貴重な知見をもたらす。
拡散モデルによるリアルタイム動画生成は、汎用マルチモーダル対話AIシステムの構築に不可欠である。しかし、拡散モデルにおける双方向注意機構を用いた全フレームの反復的同時ノイズ除去は、リアルタイム対話を妨げる。既存の蒸留手法はモデルを自己回帰化しサンプリングステップを削減することでこの問題を緩和できるが、主にテキストからの動画生成に焦点が当てられており、人間-AI間の対話は不自然で非効率なままである。本論文は、テキスト、画像、音声を含むマルチモーダル文脈を条件としたリアルタイム対話型動画拡散を実現し、この隔たりを埋めることを目指す。主導的な方策オン蒸留手法であるSelf Forcingがマルチモーダル条件付けにおいて(ちらつき、黒フレーム、品質劣化などの視覚的アーティファクトといった)課題に直面するという観察に基づき、条件入力の品質および方策オン最適化の初期化とスケジュールに重点を置いた改良された蒸留レシピを調査する。HDTF、AVSpeech、CelebV-HQを含むマルチモーダル条件付け(音声、画像、テキスト)アバター動画生成ベンチマークにおいて、我々の蒸留モデルは、推論コストとレイテンシを20分の1に削減しつつ、同等または大規模な双方向ベースラインの全ステップ品質に匹敵する視覚的品質を達成する。さらに、我々のモデルを音声言語モデルおよび長尺動画推論技術Anchor-Heavy Identity Sinksと統合し、リアルタイムマルチモーダル対話アバターシステムLiveTalkを構築する。厳選されたマルチターン対話ベンチマークにおけるシステムレベル評価では、LiveTalkが最新モデル(Sora2、Veo3)をマルチターン動画の一貫性とコンテンツ品質で上回り、応答レイテンシを1~2分からリアルタイム生成に短縮することで、シームレスな人間-AIマルチモーダル対話を実現することを示す。
近年の研究では、拡散モデルを用いてインタラクティブで探索可能な世界を生成する手法の可能性が示されてきた。しかし、これらの手法の多くは、過度に大きなパラメータサイズ、長い推論ステップへの依存、急増する履歴コンテキストといった重大な課題に直面しており、リアルタイム性能を大幅に制限し、テキスト制御による生成機能を欠いている。これらの課題に対処するため、我々は単一の画像またはテキストプロンプトから現実的でインタラクティブかつ連続的な世界を生成する新しいフレームワークである \method を提案する。\method は、キーボード操作による生成世界の探索をサポートするように注意深く設計されたフレームワークを通じてこれを実現する。このフレームワークは以下の3つの核心コンポーネントで構成される:(1) 統一コンテキスト圧縮と線形注意機構を統合した長尺動画生成フレームワーク、(2) 双方向注意蒸留と強化されたテキスト埋め込みスキームによるリアルタイムストリーミング加速戦略、(3) 世界イベントを生成するためのテキスト制御手法。コードベースは付録資料で公開している。
エージェント的強化学習(RL)は複雑なGUIタスクにおける自律エージェントの開発において大きな可能性を秘めているが、その拡張性はタスク完了の検証によって深刻に阻害されている。既存のタスク検証は受動的・事後的なプロセスとして扱われている。すなわち、検証器(ルールベースの採点スクリプト、報酬または批評モデル、LLM-as-a-Judgeなど)がエージェントの全インタラクション軌跡を分析し、成功可否を判断する。このような、無関係でノイズの多い履歴を含む冗長な文脈の処理は、検証プロトコルに課題をもたらし、結果として許容し難いコストと低い信頼性を招いている。このボトルネックを克服するため、我々はSmartSnapを提案する。これは、受動的・事後的な検証から、エージェント自身による能動的・その場での自己検証へのパラダイム転換である。我々は、タスクを完了するだけでなく、精選されたスナップショット証拠を用いてその達成を証明するという二重の使命を持つ新しいタイプのエージェント、自己検証エージェントを導入する。提案する3C原則(完全性、簡潔性、創造性)に導かれて、エージェントはオンライン環境へのアクセス性を活用し、最小限かつ決定的なスナップショットの集合に対して自己検証を実行する。このような証拠は、一般的なLLM-as-a-Judge検証器がその有効性と関連性を判断するための唯一の材料として提供される。様々なモデルファミリーと規模にわたるモバイルタスクでの実験により、我々のSmartSnapパラダイムがLLM駆動エージェントの訓練を拡張可能な方法で可能にし、8Bモデルと30Bモデルに対してそれぞれ最大26.08%、16.66%の性能向上をもたらすことが実証された。解決策の発見と証拠の探索との相乗効果により、DeepSeek V3.1およびQwen3-235B-A22Bに対抗し得る競争力のある性能を持つ、効率的で自己検証可能なエージェントの育成が促進される。
透明物体は、知覚システムにとって依然として非常に困難な対象である。屈折、反射、透過はステレオ視覚、ToF(飛行時間法)、純粋に識別的な単眼深度推定の前提を崩し、深度マップの欠損や時間的に不安定な推定を引き起こす。我々の重要な発見は、現代のビデオ拡散モデルが既に説得力のある透明現象を合成しており、光学法則を内部化していることを示唆している点である。我々はTransPhy3Dという透明/反射シーンの合成ビデオコーパスを構築した:Blender/Cyclesでレンダリングされた11,000シーケンスである。シーンは、カテゴリ豊富な静的アセットと形状豊富なプロシージャルアセットを厳選して組み合わせ、ガラス/プラスチック/金属材質を適用して構築される。物理ベースレイトレーシングとOptiXデノイジングにより、RGB+深度+法線をレンダリングする。大規模ビデオ拡散モデルを出発点とし、軽量なLoRAアダプターを介して深度(および法線)へのビデオtoビデオ変換器を学習する。訓練時には、DiTバックボーンでRGBと(ノイズ付き)深度の潜在表現を連結し、TransPhy3Dと既存のフレーム単位の合成データセットで共同訓練を行うことで、任意の長さの入力ビデオに対する時間的一貫性のある予測を実現する。結果として得られるモデルDKTは、透明物体を含む実写および合成ビデオベンチマーク(ClearPose、DREDS(CatKnown/CatNovel)、TransPhy3D-Test)において、ゼロショットでSOTAを達成する。強力な画像/ビデオベースラインと比較して精度と時間的一貫性を向上させ、法線推定バリアントはClearPoseで最高のビデオ法線推定結果を記録する。コンパクトな13億パラメータ版は約0.17秒/フレームで動作する把持システムに統合すると、DKTの深度推定は半透明、反射、拡散表面全体で把持成功率を向上させ、従来の推定器を上回る。これらの結果は、「拡散モデルは透明性を理解している」というより広い主張を支持する。生成的ビデオ事前分布は、効率的かつラベル不要で、困難な実世界マニピュレーションのための頑健で時間的にコヒーレントな知覚へと転用できる。
拡散モデルに基づく動画超解像(VSR)手法は優れた知覚的品質を実現するが、未来フレームへの依存と計算コストの高い多段階ノイズ除去により、遅延に敏感な設定では非現実的である。我々は、効率的なオンラインVSRのための因果的条件付け拡散フレームワーク「Stream-DiffVSR」を提案する。過去フレームのみを厳密に処理する本手法は、高速推論のための4段階蒸留デノイザー、潜在空間ノイズ除去中に動き整合性のある手がかりを注入する自己回帰的時間誘導(ARTG)モジュール、詳細表現と時間的一貫性を強化する軽量な時間認識デコーダ(TPMを備えた時間処理モジュール)を統合する。Stream-DiffVSRはRTX4090 GPUで720pフレームを0.328秒で処理し、従来の拡散ベース手法を大幅に上回る。オンラインSOTAであるTMPと比較して、知覚的品質(LPIPS +0.095)を向上させながら、遅延を130倍以上低減する。本手法は拡散ベースVSRとして報告されている中で最低遅延を達成し、初期遅延を4600秒以上から0.328秒に削減することで、低遅延オンライン展開に適した初の拡散VSR手法となる。プロジェクトページ: https://jamichss.github.io/stream-diffvsr-project-page/
自己回帰型大規模視覚言語モデル(VLM)は目覚ましい成功を収めているが、その逐次生成方式は複雑な視覚計画や動的なロボット制御における有効性を制限することが多い。本研究では、拡散ベースの大規模言語モデル(dLLM)上に視覚言語モデルを構築する可能性を探り、これらの限界を克服することを目指す。我々は、従来のdVLMの中で最先端の性能を達成するオープンな拡散ベースVLM(dVLM)、Dream-VLを提案する。Dream-VLは、各種ベンチマークにおいてオープンデータで学習されたトップクラスのARベースVLMに匹敵する性能を示しつつ、視覚計画タスクに適用した際に優れた潜在能力を発揮する。Dream-VLを基盤として、オープンなロボットデータセットを用いた連続事前学習により開発されたdLLMベースの視覚言語行動モデル(dVLA)、Dream-VLAを導入する。この拡散バックボーンが本来備える双方向性がVLAタスクの基盤として優れており、行動チャンキングと並列生成に本質的に適しているため、下流タスクのファインチューニングにおいて大幅に高速な収束を実現することを示す。Dream-VLは、LIBEROで97.2%の平均成功率、SimplerEnv-Bridgeで71.4%の総合平均、SimplerEnv-Fractalで60.5%の総合平均を達成し、π_0やGR00T-N1などの主要モデルを凌駕するトップクラスの性能を実現した。また、異なる学習目的における下流タスクにおいて、dVLMがARベースラインを上回ることも検証する。コミュニティのさらなる研究の発展に貢献するため、Dream-VLとDream-VLAの両方を公開する。
拡散トランスフォーマーモデルは、条件画像を符号化しトランスフォーマー層に統合することで、画像編集技術を大幅に進展させてきました。しかし、ほとんどの編集作業では小さな領域のみが変更されるのに対し、現在の手法では全てのトークンを毎タイムステップで均一に処理・ノイズ除去するため、冗長な計算が発生し、変更のない領域の品質劣化を招く可能性があります。これは根本的な疑問を提起します:編集時に本当に全ての領域を再生成する必要があるのでしょうか? この課題に対処するため、我々は変更領域のみを選択的に更新する学習不要の拡散編集フレームワーク「SpotEdit」を提案します。SpotEditは二つの主要コンポーネントで構成されます:SpotSelectorは知覚的類似性に基づいて安定領域を特定し、条件画像特徴の再利用により計算を省略します。SpotFusionは動的融合メカニズムを通じてこれらの特徴を編集済みトークンと適応的に統合し、文脈的一貫性と編集品質を保持します。不要な計算を削減し、未変更領域の高忠実性を維持することで、SpotEditは効率的かつ精密な画像編集を実現します。
テキストエンコーダーは、テキストから画像/動画を生成する拡散モデルにおける重要な構成要素であり、生成コンテンツの意味的忠実度を根本的に決定する。しかし、その開発は二つの大きな課題によって阻まれてきた。一つは、下流の生成性能を確実に予測する効率的な評価フレームワークの欠如、もう一つは視覚的合成に適応させるための事前訓練済み言語モデルの効果的な適応の難しさである。これらの課題に対処するため、我々はGRAN-TEDを提案する。これは拡散モデルのための頑健で整合性が取れ、細やかなテキスト埋め込みを生成するパラダイムである。我々の貢献は二つある。第一に、TED-6Kという新しいテキストのみのベンチマークを提案する。これは、コストのかかるエンドツーエンドのモデル訓練を必要とせず、エンコーダーの表現品質を効率的かつ頑健に評価することを可能にする。軽量で統一されたアダプターを用いて標準化されたTED-6Kでの性能が、下流の生成タスクにおけるエンコーダーの有効性と強く相関することを実証する。特に、我々の実験設定では、拡散モデルをスクラッチから訓練する場合と比較して、TED-6Kによる評価は約750倍高速である。第二に、この検証済みのフレームワークに導かれ、新規の二段階訓練パラダイムを用いて優れたテキストエンコーダーを開発する。このプロセスは、より良い視覚的表現を得るためのマルチモーダル大規模言語モデルに対する初期の微調整段階と、より細やかで強力なテキスト特徴を抽出するための層別重み付け法を含む。実験結果は、得られたGRAN-TEDエンコーダーがTED-6Kで最先端の性能を達成するだけでなく、テキストから画像/動画への生成において顕著な性能向上をもたらすことを示している。TED-6Kデータセットと評価コードは以下のリンクで公開されている:https://anonymous.4open.science/r/GRAN-TED-4FCC/
ロボットマニピュレーション課題を表現力と正確性の両立で規定することは、依然として中心的な課題である。視覚的目標は簡潔で曖昧さのない課題規定を提供するが、既存の目標条件付きポリシーは、タスクの進捗を明示的にモデル化せず単一ステップの行動予測に依存するため、長期にわたるマニピュレーションに苦戦することが多い。本論文では、目標条件付き視覚世界モデルとマルチスケール時間制御を統合した汎用目標条件付きマニピュレーションポリシーであるAct2Goalを提案する。現在の観測と目標視覚状態が与えられると、世界モデルは長期構造を捉えた妥当な中間視覚状態の系列を生成する。この視覚的計画を堅牢な実行に変換するため、マルチスケール時間ハッシュ法(MSTH)を導入する。これは、想像された軌跡を、細粒度の閉ループ制御のための高密度な近位フレームと、大域的なタスク一貫性を確保する疎な遠位フレームに分解する。本ポリシーは、これらの表現をエンドツーエンドのクロスアテンションにより運動制御と結合し、局所的な外乱に対して反応性を保ちながら、一貫した長期行動を実現する。Act2Goalは、新しい物体、空間配置、環境に対する強力なゼロショット一般化を達成する。さらに、LoRAベースのファインチューニングを用いた後悔目標再ラベリングによる報酬なしオンライン適応を可能にし、外部監視なしでの迅速な自律的改善を実現する。実ロボット実験により、Act2Goalが分布外の困難な課題において、自律的相互作用開始数分以内に成功率を30%から90%に向上させることが実証され、マルチスケール時間制御を備えた目標条件付き世界モデルが、堅牢な長期マニピュレーションに必要な構造化された指針を提供することを検証した。プロジェクトページ: https://act2goal.github.io/
言語エージェントが行動し、記憶し、学習するためには、持続的な世界の構築がますます必要とされている。既存のアプローチは二極化している。従来のWebフレームワークはデータベースに支えられた信頼性の高い固定コンテキストを提供するが、一方で完全生成型の世界モデルは制御性と実用性を犠牲にして無制限の環境を目指す。本研究では、Web World Model (WWM) を提案する。これは、世界の状態と「物理法則」を通常のWebコードで実装して論理的一貫性を確保しつつ、大規模言語モデルがこの構造化された潜在状態の上で文脈、物語、高次元の意思決定を生成する、中間的な立場を取る。我々は、現実的な地理に基づく無限の旅行地図、架空の銀河探検、Web規模の百科事典的・物語的世界、シミュレーションおよびゲーム的環境を含む、現実的なWebスタック上でWWMのスイートを構築した。これらのシステムを通じて、WWMの実用的な設計原則を明らかにした:コードで定義される規則とモデル駆動の想像力を分離すること、潜在状態を型付きWebインターフェースとして表現すること、決定論的生成を利用して構造化された無制限の探索を実現することである。我々の結果は、Webスタック自体が世界モデルのスケーラブルな基盤として機能し、制御可能でありながら開放的な環境を実現しうることを示唆している。プロジェクトページ: https://github.com/Princeton-AI2-Lab/Web-World-Models.
拡散言語モデル(dLLM)は、自己回帰(AR)モデルに代わる有望なアプローチとして登場した。近年の研究ではその事前学習の可能性が検証され、推論速度の高速化が進められているが、dLLMの学習後調整(post-training)に関する技術基盤は未だ未成熟である。既存手法は計算効率の低さや、学習と推論の目的関数の不一致に悩まされており、数学のような複雑な推論タスクにおける性能が大幅に制限されている。この問題を解決するため、我々は効率的な学習後調整フレームワークであるDiRLを提案する。DiRLは、FlexAttentionにより高速化されたブロック単位学習とLMDeployによって最適化された推論を緊密に統合する。このアーキテクチャは、効率的なオンラインモデル更新ループを実現し、監督ファインチューニングと強化学習からなる二段階の学習後調整を効率的に実行する。このフレームワークに基づき、我々はdLLMに特化した初の不偏なグループ相対方策最適化(GRPO)実装であるDiPOを提案する。高品質な数学データを用いてDiRL-8B-Instructを学習し、本アプローチを検証した。その結果、本モデルはdLLMの中で数学タスクにおいて最先端の性能を達成し、いくつかのベンチマークではQwen2.5シリーズの同規模モデルを上回った。
AI共同研究者は、人間の研究者が研究目標を達成するのを支援するツールとして登場しつつある。これらのAI共同研究者の重要な特徴は、与えられた目標と制約条件に基づいて研究計画を生成する能力である。生成された計画は研究者によるブレインストーミングに利用されるか、さらなる洗練を経て実行に移される可能性がある。しかし、現在の言語モデルは、すべての制約条件と暗黙的な要件を満たす研究計画の生成に苦戦している。本研究では、既存の研究論文の膨大なコーパスを活用し、より優れた研究計画を生成する言語モデルを訓練する方法を探る。複数分野にわたる論文から研究目標と目標特化型評価基準を自動抽出することで、スケーラブルで多様な訓練コーパスを構築する。その後、自己採点による強化学習を用いて研究計画生成のためのモデルを訓練する。訓練中は初期方策の凍結コピーが採点者として機能し、評価基準が生成者と検証者の間にギャップを生み出すことで、外部の人間の監督なしに改善を可能にする。このアプローチを検証するため、機械学習の研究目標を対象に225時間に及ぶ人間の専門家による評価を実施した。専門家は、研究目標の70%において、微調整したQwen3-30B-A3Bモデルが生成した計画を初期モデルより好み、自動抽出された目標特化型評価基準の84%を承認した。一般性を評価するため、医学論文や新規arXivプレプリントからの研究目標にもアプローチを拡張し、フロンティアモデルによる審査員団で評価した。微調整により12-22%の相対的改善と有意な分野横断的な一般化が達成され、実行フィードバックが得られない医学研究のような問題設定でも有効であることが証明された。これらの知見は、スケーラブルで自動化された訓練手法の可能性を示し、汎用AI共同研究者の改善に向けた一歩となる。
自律エージェントの進化は、情報探索を従来の受動的検索から、能動的で広範なウェブリサーチへと変革しつつある。しかし、テキストおよび静的なマルチモーダルエージェントが急速に進歩する一方で、ウェブ上で最も動的なモダリティであるビデオを処理する能力には大きな隔たりが残っている。既存のビデオベンチマークは主に受動的な知覚に焦点を当てており、精選されたクリップをモデルに入力するだけで、外部検索を必要としない。これらは、ビデオのタイムラインを能動的に問い合わせ、分散した証拠を相互参照し、オープンウェブ上の主張を検証することを必要とする、自律的なビデオリサーチを評価できていない。この隔たりを埋めるため、我々はオープンウェブにおける自律的ビデオ推論に特化した210の質問からなる挑戦的なベンチマーク、Video-BrowseCompを提案する。従来のベンチマークとは異なり、Video-BrowseCompは時間的な視覚的証拠への必須の依存を強制し、回答がテキスト検索のみでは導き出せず、外部の主張を検証するためにビデオのタイムラインを操作する必要があることを保証する。最先端モデルの評価結果は重大なボトルネックを明らかにした:GPT-5.1(検索機能付き)のような高度な検索拡張モデルでさえ、正答率はわずか15.24%に留まった。分析の結果、これらのモデルはテキスト代理情報に大きく依存しており、メタデータが豊富な領域(例:あらすじのあるTV番組)では優れるものの、視覚的接地が不可欠なメタデータが乏しい動的環境(例:スポーツ、ゲームプレイ)では性能が大幅に低下することが判明した。オープンウェブビデオリサーチにおける最初のベンチマークとして、Video-BrowseCompは、受動的知覚を超えた能動的ビデオ推論へと研究分野を前進させる。
既存のエンボディードナビゲーション課題の多くでは、指示追従や物体探索のように、指示が明確で曖昧さのないものが主流である。この理想化された設定下では、エージェントは視覚と言語の入力に条件付けられた効果的なナビゲーション出力を生成することのみが要求される。しかし、実世界のナビゲーション指示は曖昧で多義的な場合が多く、エージェントは不確実性を解決し、能動的対話を通じてユーザーの意図を推論する必要がある。この隔たりを埋めるため、本論文は対話型インスタンス物体ナビゲーション(IION)を提案する。この課題では、エージェントはナビゲーション行動を生成するだけでなく、能動的対話による言語出力も行う必要があり、実践的な設定により近い。IIONはインスタンス物体ナビゲーション(ION)を拡張し、エージェントがナビゲーション中に自然言語でオラクルに自由に問い合わせることを可能とする。この課題に基づき、我々は大規模な自動生成データセットと、対話機能付きナビゲーションモデルの学習・評価のための包括的評価プロトコルを提供するVL-LNベンチマークを提案する。VL-LNは学習用の4万1千以上の長距離対話補完軌道を含み、エージェントの問い合わせに応答可能なオラクルを備えた自動評価プロトコルを有する。本ベンチマークを用いて、対話機能を備えたナビゲーションモデルを学習し、ベースラインを大幅に上回る性能を示す。詳細な実験と分析により、VL-LNが対話機能付きエンボディードナビゲーション研究の発展に有効かつ信頼性の高い枠組みであることを実証する。コードとデータセット:https://0309hws.github.io/VL-LN.github.io/
オムニモーダル大規模言語モデルは、音声と視覚のモダリティ統合において大きな進展を遂げてきたが、細粒度のクロスモーダル理解に欠け、マルチモーダルな対応関係の構築が困難な場合が多い。これらの課題を解決するため、我々はOmniAgentを提案する。これは専門ツールを動的に調整して、より細粒度の音声-視覚推論を実現する、完全に音声誘導型の能動的知覚エージェントである。従来の研究が硬直した静的なワークフローや高密度なフレームキャプションに依存するのに対し、本論文は受動的な応答生成から能動的なマルチモーダル探索へのパラダイム転換を示す。OmniAgentは動的計画を用いて要求に応じたツール呼び出しを自律的に調整し、知覚的注意を戦略的にタスク関連の手がかりに集中させる。本手法の中核となるのは、音声手がかりで時間的イベントを局在化し、その後の推論を誘導する新しい粗密音声誘導知覚パラダイムである。3つの音声-映像理解ベンチマークによる広範な実証評価により、OmniAgentが最先端の性能を達成し、主要なオープンソースモデル及びプロプライエタリモデルを10%~20%の精度で大幅に上回ることを実証した。
情報探索(IS)エージェントは、広範かつ深い検索タスクにおいて強力な性能を達成しているが、そのツール利用はAPIレベルのスニペット取得やURLベースのページ取得に大きく限定されており、実際のブラウジングを通じて得られるより豊富な情報へのアクセスが制限されている。完全なブラウザ操作はより深い能力を解放する可能性があるが、その細粒度な制御と冗長なページコンテンツの返却は、ReActスタイルの関数呼び出しエージェントにとって大きな複雑さをもたらす。この隔たりを埋めるため、我々は**Nested Browser-Use Learning (NestBrowse)** を提案する。これは、最小限かつ完全なブラウザアクションフレームワークを導入し、ネスト構造を通じて操作制御とページ探索を分離する。この設計は、エージェントの推論を簡素化しつつ、効果的なディープウェブ情報の取得を可能にする。難易度の高いディープISベンチマークによる実証結果は、NestBrowseが実用上明確な利点を提供することを示している。さらに詳細な分析により、その効率性と柔軟性が裏付けられた。
既存のリアルタイム物体検出(RTOD)手法では、精度と速度の優れたトレードオフから、YOLO様のアーキテクチャが一般的に採用されている。しかし、これらのモデルは静的な密計算に依存しており、すべての入力に均一な処理を適用するため、表現能力と計算リソースの配分を誤っている。例えば、単純なシーンには過剰にリソースを割り当て、複雑なシーンにはリソース不足となる。このミスマッチは、計算の冗長性と検出性能の低下の両方を引き起こす。この課題を克服するため、本論文ではRTODのためのインスタンス条件付き適応的計算を導入した新規のYOLO様フレームワーク、YOLO-Masterを提案する。これは、シーンの複雑度に応じて各入力に対して計算リソースを動的に割り当てる効率的なスパースMixture-of-Experts(ES-MoE)ブロックによって実現される。中核となるのは、軽量な動的ルーティングネットワークであり、多様性を高める目的関数を通じて学習中にエキスパートの専門化を導き、エキスパート間の相補的な専門性を促進する。さらに、ルーティングネットワークは、最も関連性の高いエキスパートのみを適応的に活性化することを学習するため、推論時の計算オーバーヘッドを最小化しつつ検出性能を向上させる。5つの大規模ベンチマークによる包括的実験により、YOLO-Masterの優位性が実証された。MS COCOでは、本モデルは42.4% AP、1.62msのレイテンシを達成し、YOLOv13-Nを+0.8% mAPで上回り、推論速度は17.8%高速であった。特に、困難な高密度シーンにおいて性能向上が顕著であり、典型的な入力では効率を維持し、リアルタイム推論速度を保っている。コードは公開予定である。
完全自律的な手術ロボットの実現において、データ不足は依然として根本的な障壁となっている。大規模な視覚言語行動(VLA)モデルは、様々な領域から取得した映像と行動のペアデータを活用することで、家庭や産業分野におけるマニピュレーションで優れた汎化性能を示している。しかし、手術ロボティクスでは、視覚観測データと正確なロボット運動学データの両方を包含するデータセットが極めて乏しい。一方で、手術映像の大規模コーパスは存在するものの、対応する行動ラベルが欠如しているため、模倣学習やVLAトレーニングの直接的な適用が阻まれている。本研究では、手術物理AI向けに設計された世界モデルであるSurgWorldから政策モデルを学習することで、この問題の緩和を目指す。我々は、手術ロボットに特化した詳細な行動記述を含むSurgical Action Text Alignment(SATA)データセットを構築した。さらに、最先端の物理AI世界モデルとSATAに基づいてSurgeWorldを構築した。これは、多様性に富み、汎化性が高く、現実的な手術映像を生成可能である。また、合成手術映像から逆動力学モデルを用いて擬似運動学データを推定し、合成された映像と行動のペアデータを生成する手法を初めて提案する。これらの拡張データで学習した手術VLA政策が、実機の手術ロボットプラットフォームにおいて、実演データのみで学習したモデルを大幅に上回る性能を示すことを実証する。本アプローチは、ラベルなし手術映像の豊富さと生成的な世界モデリングを活用することで、自律的な手術技能獲得へのスケーラブルな道筋を提供し、汎化性が高くデータ効率の良い手術ロボット政策への扉を開くものである。
大規模言語モデル(LLM)の普及は、複雑な推論とツール利用を可能とする自律エージェントへの移行を促進してきた。しかし、現在のエージェントアーキテクチャは、命令型的でアドホックなパターンを用いて構築されることが多い。これにより、状態管理、エラー処理、並行性における困難に悩まされる脆いシステムが生じている。本論文は、Functor、Applicative Functor、Monadという代数的構造を活用し、エージェント設計に形式的な基盤を提供する新しいアーキテクチャパラダイムであるMonadic Context Engineering(MCE)を提案する。MCEはエージェントのワークフローを計算コンテキストとして扱い、状態伝播、短絡型エラー処理、非同期実行といった横断的関心事を、抽象化の代数的性質によって本質的に管理する。我々は、Monadが如何に堅牢な逐次合成を可能にするか、Applicativeが如何に並列実行のための原則的な構造を提供するか、そして決定的に、Monad Transformerが如何にこれらの能力を体系的に合成することを可能にするかを示す。この階層化されたアプローチにより、開発者は単純で独立検証可能なコンポーネントから複雑で耐障害性が高く効率的なAIエージェントを構築できる。さらに、このフレームワークをメタエージェントの記述へと拡張する。メタエージェントはMCEを生成的オーケストレーションに活用し、メタプログラミングを通じてサブエージェントのワークフローを動的に生成・管理する。プロジェクトページ: https://github.com/yifanzhang-pro/monadic-context-engineering
エージェンシック言語モデル(LM)システムは、「Deep Research」や「Claude Code」のような現代的なアプリケーションを駆動し、コンテキストの制限を克服するためにマルチLMアーキテクチャを活用している。一見多様なこれらのシステムの根底には、反復的に現れるパターンが存在する:より小型の「圧縮器」LM(ローカルで動作可能なものさえもある)が生のコンテキストをコンパクトなテキストに蒸留し、それをより大型の「予測器」LMが消費するのである。その人気にもかかわらず、圧縮器-予測器システムの設計は大部分がアドホックなままであり、圧縮器と予測器の選択が下流の性能をどう形成するかについての指針はほとんどない。実際には、性能向上を圧縮と予測のどちらに帰属させるかは、コストのかかるタスク固有のペアワイズ掃引を必要とする。我々は、これらのエージェンシックシステム設計の課題は、根本的には情報理論的な問題であると主張する。圧縮器LMを雑音のある通信路と見なすことで、コンテキストとその圧縮表現間の相互情報量の単純な推定器を導入し、タスクに依存しない方法で圧縮品質を定量化する。この相互情報量が、特定のタスクに依存せずに、下流性能を強く予測することを示す。情報理論的フレームワークを通じて、5つのデータセットと3つのモデルファミリーにわたる包括的な実証分析を実施する。結果は、より大型の圧縮器が、より正確であるだけでなく、よりトークン効率が高く、トークン当たりより多くの情報ビットを伝達することを明らかにする。例えば、7BパラメータのQwen-2.5圧縮器は、1.5Bパラメータの兄弟モデルと比較して、1.6倍正確で、4.6倍簡潔であり、トークン当たり5.5倍多くの相互情報量ビットを伝達する。データセット全体を通じて、圧縮器をスケーリングすることは予測器をスケーリングするよりも実質的に効果が高く、より大型のオンデバイス圧縮器がより小型のクラウド予測器とペアリングすることを可能にする。Deep Researchシステムに適用すると、これらの原則により、わずか3Bパラメータのローカル圧縮器が、フロンティアLMの精度の99%をAPIコストの26%で回復することが可能となる。
近年のコンピュータビジョンの進展により、3Dガウシアンスプラッティング(3D-GS)を活用して、オープン語彙セグメンテーション(OVS)が3D領域へ拡張されつつある。しかしながら、この進歩にも関わらず、オープン語彙クエリに必要とされる高次元特徴量を効率的にレンダリングすることは重大な課題である。既存手法はコードブックや特徴量圧縮を採用するが、これらは情報損失を引き起こし、セグメンテーション品質の低下を招く。この問題を解決するため、我々はQuantile Rendering (Q-Render) を提案する。これは、高次元特徴量を高忠実度を維持しながら効率的に扱う、3Dガウシアンに対する新たなレンダリング手法である。従来のボリュームレンダリングが光線と交差する全ての3Dガウシアンを密にサンプリングするのに対し、Q-Renderは光線上で支配的な影響を持つもののみを疎にサンプリングする。本Q-Renderを汎化可能な3Dニューラルネットワークに統合することで、ガウシアン特徴量を汎化的に予測するGaussian Splatting Network (GS-Net) も提案する。ScanNetおよびLeRFにおける大規模な実験により、本フレームワークが最先端手法を凌駕し、512次元特徴マップにおいて約43.7倍の高速化を実現しつつ、リアルタイムレンダリングを可能にすることを実証した。コードは公開予定である。
実世界ロボティクスへの強化学習(RL)適用における主な障壁は、効果的な報酬関数の設計である。学習ベースのプロセス報酬モデル(PRM)は近年有望な方向性であるが、しばしば二つの根本的限界に妨げられている。すなわち、報酬モデルがステップを意識した理解を欠き、単一視点の知覚に依存するため、細かな操作の進捗を信頼性高く評価できない点、および報酬形成の手続きが理論的に不健全で、方策最適化を誤った方向に導く意味論的トラップを誘発しがちな点である。これらの問題に対処するため、我々はマルチビュー入力から汎用的でステップを意識したプロセス報酬モデルを学習する新しい報酬モデリング手法、Dopamine-Rewardを提案する。その中核は、3,400時間以上に及ぶ大規模データセットで学習された一般報酬モデル(GRM)であり、これは構造的理解のためのステップ単位報酬離散化と、知覚的限界を克服するマルチ視点報酬融合を活用する。Dopamine-Rewardを基盤として、我々は理論的に健全な方策不変報酬形成法を採用した堅牢な方策学習フレームワーク、Dopamine-RLを提案する。この手法により、エージェントは最適方策を変更することなく、効率的な自己改善のための密な報酬を利用でき、意味論的トラップを根本的に回避する。多様なシミュレーションおよび実世界タスクにおける広範な実験により本手法の有効性を検証した。GRMは報酬評価において最先端の精度を達成し、GRM上に構築されたDopamine-RLは方策学習効率を大幅に改善する。例えば、GRMが単一の熟練軌道からワンショットで新規タスクに適応された後、得られた報酬モデルにより、Dopamine-RLは方策をほぼゼロから95%の成功率に、わずか150回のオンラインロールアウト(実ロボットとの相互作用で約1時間に相当)で改善し、タスク間での強力な一般化性能を維持する。プロジェクトウェブサイト: https://robo-dopamine.github.io
ジェネレーティブモデルの急速な進化に伴い、マルチモーダルな安全性リスクが継続的に顕在化しており、既存の防御手法の限界が露呈している。これらの課題に対処するため、我々はProGuardを提案する。これは視覚言語プロアクティブガードであり、従来のリアクティブアプローチで必要とされたモデル調整を必要とせず、分布外(OOD)安全性リスクを識別し記述する。まず、87Kサンプルからなるモダリティ均衡データセットを構築し、各サンプルに二値安全性ラベルと階層型マルチモーダル安全性分類体系に基づくリスクカテゴリを付与することで、モダリティバイアスを効果的に軽減し、テキスト、画像、テキスト画像入力にわたる一貫したモデレーションを保証する。このデータセットに基づき、強化学習(RL)のみを通じて視覚言語基盤モデルを訓練し、効率的かつ簡潔な推論を実現する。制御環境下でプロアクティブ安全性シナリオを近似するため、OOD安全性カテゴリ推論タスクを追加導入し、同義語バンクベースの類似性報酬をRL目的関数に付加することで、未見の不安全カテゴリに対する簡潔な記述生成を促進する。実験結果では、ProGuardが二値安全性分類においてクローズドソース大規模モデルに匹敵する性能を達成し、不安全コンテンツ分類では既存のオープンソースガードモデルを大幅に上回る。特に顕著なのは、ProGuardが強力なプロアクティブモデレーション能力を発揮し、OODリスク検出を52.6%、OODリスク記述を64.8%改善した点である。
既存のAI駆動型映像制作システムは、脚本作成とキーシーン設計を通常は独立したタスクとして扱う。すなわち、前者は大規模言語モデルに、後者は画像生成モデルに依存している。我々は、論理的推論と想像的思考がともに映画監督の基本的資質であることから、これら二つのタスクを単一フレームワーク内で統合すべきだと主張する。本論文では、ユーザーのプロンプトから構造化された脚本を生成する統合型監督モデルUniMAGEを提案する。これにより、既存の音声・映像生成モデルを活用し、非専門家が長尺・マルチシーンの映像制作を可能にする。これを実現するため、テキスト生成と画像生成を統合するMixture-of-Transformersアーキテクチャを採用した。さらに物語の論理性とキーフレームの一貫性を高めるため、「まず交互学習、その後分離学習」という新しい訓練パラダイムを導入する。具体的には、まず交互配置されたテキスト・画像データを用いて脚本の深い理解と想像的解釈を促進する「交互概念学習」を実施し、続いて脚本執筆とキーフレーム生成を分離することで、ストーリーテリングの柔軟性と創造性を高める「分離専門家学習」を実行する。大規模な実験により、UniMAGEがオープンソースモデルの中で最先端の性能を達成し、論理的整合性の高い映像脚本と視覚的一貫性のあるキーフレーム画像を生成することを実証した。
リアルタイム肖像アニメーションは、仮想アシスタントやライブアバターなどのインタラクティブアプリケーションにおいて不可欠であり、高い視覚的忠実度、時間的一貫性、超低遅延、参照画像や駆動信号などの動的入力からの応答性のある制御が要求される。拡散モデルに基づく手法は高い品質を実現するが、非因果的な性質によりストリーミング環境での展開が妨げられている。因果的な自己回帰型ビデオ生成手法は効率的なフレーム単位の生成を可能にするが、誤差の蓄積、チャンク境界での動きの不連続、長期一貫性の劣化に悩まされている。本研究では、Knot Forcing と名付けた新しいストリーミングフレームワークを提案し、リアルタイム肖像アニメーションにおけるこれらの課題を以下の3つの主要な設計により解決する。(1) 参照画像のキャッシュされたKV状態によるグローバルな同一性保持と、スライディングウィンドウアテンションを用いた局所的時間モデリングを組み合わせたチャンク単位生成戦略。(2) 隣接チャンクをオーバーラップさせ、画像からビデオへの条件付けを介して時空間的な手がかりを伝播させることで、チャンク間の動き遷移を滑らかにする時間的結節モジュール。(3) 推論中に参照フレームの時間座標を動的に更新し、その意味的コンテキストを現在の生成フレームより先行させることで長期一貫性を支援する「先行実行」メカニズム。Knot Forcing は、無限のシーケンスにわたって高精細で時間的に一貫性があり、インタラクティブな肖像アニメーションを実現し、民生品GPU上で強力な視覚的安定性を保ちつつリアルタイム性能を達成する。
様々なモデルアーキテクチャ(トランスフォーマー、大規模言語モデル(LLM)、その他のNLPシステムなど)の性能を評価するには、複数の次元にわたって性能を測定する包括的なベンチマークが必要である。中でも自然言語理解(NLU)の評価は、モデルの能力を評価する基本的な基準として特に重要である。したがって、多様な視点からNLU能力を徹底的に評価・分析できるベンチマークを確立することが不可欠である。GLUEベンチマークは英語NLU評価の標準を確立したが、中国語のCLUE、フランス語のFLUE、日本語のJGLUEなど、他の言語でも同様のベンチマークが開発されている。しかし、トルコ語には現在、これに相当するベンチマークが存在しない。この空白を埋めるため、我々はトルコ語における様々なNLUタスクを含む包括的なベンチマーク「TrGLUE」を提案する。さらに、感情分析に特化したベンチマーク「SentiTurca」も併せて提示する。研究者を支援するため、トランスフォーマーベースモデルのファインチューニング及び評価コードも提供し、これらのベンチマークの効果的な利用を促進する。TrGLUEは、GLUEスタイルの評価の領域とタスク設定を反映するよう選定されたトルコ語ネイティブのコーパスで構成され、ラベルは強力なLLMベースの注釈、クロスモデル合意チェック、その後に行う人的検証を組み合わせた半自動パイプラインを通じて取得されている。この設計は言語的自然性を優先し、直接翻訳による人為的痕跡を最小化するとともに、拡張性と再現性の高いワークフローを実現する。TrGLUEを通じて、我々の目標はトルコ語NLUのための堅牢な評価枠組みを確立し、研究者に貴重なリソースを提供し、高品質な半自動データセット生成に関する知見を提供することである。
深層学習推薦モデル(DLRM)の学習と推論を高速かつ効率的にすることは重要である。しかし、これには3つの主要なシステム課題が存在する―モデルアーキテクチャの多様性、カーネルプリミティブの多様性、そしてハードウェア世代およびアーキテクチャの異種混合性である。本論文は、DLRMにおける大規模な異種混合性に対処するため、エージェント型カーネルコーディングフレームワーク「KernelEvolve」を提案する。KernelEvolveは、カーネル仕様を入力として受け取り、異種ハードウェアアーキテクチャにわたる推薦モデルのためのカーネル生成と最適化のプロセスを自動化するように設計されている。KernelEvolveは、TritonやCuTe DSLから低水準のハードウェア非依存言語まで、複数のプログラミング抽象化レベルで動作し、ハードウェアとソフトウェアの最適化スタック全体をカバーすることでこれを実現する。カーネル最適化プロセスは、選択ポリシー、普遍演算子、適合度関数、終了規則を備えたグラフベースの探索として記述され、検索強化型プロンプト合成を通じて実行時コンテキストに動的に適応する。我々はKernelEvolveを設計、実装、導入し、NVIDIAおよびAMDの複数世代のGPU、ならびにMetaのAIアクセラレータにわたる多種多様な本番推薦モデルを最適化した。公開されているKernelBenchスイートでKernelEvolveを検証した結果、3つの難易度レベルにわたる全250問題で100%の合格率を達成し、3つの異種ハードウェアプラットフォームにわたる160のPyTorch ATen演算子において100%の正確性を実証した。KernelEvolveは、開発時間を数週間から数時間に短縮し、多様な本番ユースケースおよび大規模な異種AIシステムにおいて、PyTorchベースラインを大幅に上回る性能向上を達成する。性能効率の改善を超えて、KernelEvolveは社内開発のAIハードウェア向けの自動カーネル生成を可能にすることで、新しいAIハードウェアに対するプログラミングの障壁を大幅に軽減する。
本論文では、任意ステップ推論を可能にする新規のテキスト画像生成手法「Self-Evaluating Model (Self-E)」を提案する。Self-EはFlow Matchingモデルと同様にデータから学習する一方、独自の自己評価メカニズムを併用する。すなわち、現在のスコア推定値を用いて自身が生成したサンプルを評価し、動的な自己教師として機能する。従来の拡散モデルやフローモデルとは異なり、多数の推論ステップを必要とする局所的な監督のみに依存せず、知識蒸留ベースの手法とは異なり、事前学習済み教師モデルを必要としない。瞬時の局所学習と自己駆動型の大域的マッチングを組み合わせることで、両パラダイム間の隔たりを埋め、少ステップ数においても優れた性能を発揮するテキスト画像モデルのスクラッチ学習を実現する。大規模テキスト画像ベンチマークにおける広範な実験により、Self-Eが少ステップ生成で優れるだけでなく、50ステップにおいても最先端のFlow Matchingモデルと競合することを示す。さらに、その性能は推論ステップ数の増加に伴い単調に向上し、単一の統一モデル内で超高速な少ステップ生成と高品質な長軌道サンプリングの両方を実現する。知る限り、Self-Eはスクラッチ学習による初の任意ステップテキスト画像モデルであり、効率的かつスケーラブルな生成のための統一フレームワークを提供する。
我々は、より能力の高いモデルから得られた思考連鎖(CoT)の合成データセットで学習させることで、言語モデルの推論能力が向上するという驚くべき発見を報告する。これは、それらの思考連鎖の全てが最終的に誤った答えに至る場合であっても成り立つ。本実験により、この手法が推論タスクにおいて人間による注釈付きデータセットでの学習よりも優れた性能を発揮し得ることが示された。我々は、この現象を説明する二つの主要因を仮説として提示する。第一に、合成データの分布は本質的に言語モデル自身の分布に近く、学習がより容易である点。第二に、これらの「誤った」思考連鎖はしばしば部分的にしか欠陥がなく、モデルが学ぶべき有効な推論ステップを含んでいる点である。第一の仮説をさらに検証するため、人間による注釈付き思考連鎖を言語モデルで言い換え(その分布をモデル自身の分布に近づけ)、これが性能向上に寄与することを示す。第二の仮説については、欠陥を段階的に増やしたCoTトレースを導入し、モデルがこれらの欠陥をどこまで許容するかを検証する。我々は、数学、アルゴリズム推論、コード生成といった様々な推論領域において、MATH、GSM8K、Countdown、MBPPデータセットを用い、Qwen、Llama、Gemmaモデル群から1.5Bから9Bパラメータ規模の様々な言語モデルでこれらの知見を実証する。本研究は、モデルの分布に近いデータセットを構築することが極めて重要であることを示すとともに、最終答えの正しさが常に忠実な推論過程の信頼できる指標とはならないことも明らかにする。
近年のテキストto画像拡散モデルは、テキストプロンプトや人物のアイデンティティに条件付けられた写実的な顔画像の生成において顕著な成果を示し、個人化された顔画像の作成を可能にしている。しかし、既存のプロンプトベースの手法は、アイデンティティ固有の特徴を除去または修正する際、対象人物が事前学習済みモデル内で十分に表現されていることに依存するか、特定のアイデンティティに対するモデルのファインチューニングを必要とする。本研究では、アイデンティティ生成プロセスを分析し、顔の匿名化のための逆パーソナライゼーションフレームワークを提案する。本手法は条件付き拡散反転を活用し、テキストプロンプトを用いることなく画像を直接操作する。モデルの学習データに含まれない対象へ一般化するため、アイデンティティ誘導型条件付けブランチを組み込んでいる。従来の匿名化手法が顔属性の制御性に欠けていたのに対し、本フレームワークは属性制御可能な匿名化を実現する。提案手法が、アイデンティティ除去、属性保存、画像品質のバランスにおいて最先端の性能を達成することを実証する。ソースコードとデータはhttps://github.com/hanweikung/reverse-personalization で公開している。