翻訳付きの日次キュレーションされたAI研究論文
最新のオープンワールドエージェント(例:OpenClaw)は、強力なクロス環境実行能力を示す一方で、新たな広範な安全リスク源をもたらします。さらに、先進的なフロンティアAIモデルは攻撃のハードルを劇的に低下させ、現在のエージェントアライメントフレームワークは現実世界での展開には不十分です。これらの新たな脅威に対処するため、我々は軽量でスケーラブルなエージェント安全アライメントフレームワークを提案します。具体的には、CodexやOpenClawの実行シナリオから生じる新興リスクに対応するため、エージェント安全分類体系を更新します。さらに、影響関数による精製を施した分類体系誘導型データエンジンを構築し、約1000サンプルのみで軽量なAgentDoG 1.5のバリエーション(0.8B、2B、4B、8Bパラメータ)を訓練し、主要なクローズドソースモデル(例:GPT-5.4)と同等の性能を達成します。AgentDoG 1.5を基に、高効率なエージェント安全SFTおよびRL訓練環境を構築し、Dockerレベルの環境における展開オーバーヘッドを2桁削減します。最後に、AgentDoG 1.5を訓練不要のオンラインガードレールとして展開し、リアルタイムの安全モデレーションを実現します。広範な実験結果は、AgentDoG 1.5が多様で複雑な対話型エージェントシナリオにおいて最先端の性能を達成することを示しています。すべてのモデルとデータセットは公開されています。
具現化知能は、操作やナビゲーションといった個別のタスクに特化したモデルを用いて研究されることが多く、その結果、能力が断片的になり、タスク、環境、ロボットの身体性を横断した汎化が限定される。本研究では、異種の具現化意思決定問題を単一の視覚-言語-動作モデルに統合できるかどうかを検討する。我々はQwen-VLAを提案する。これは、Qwenの視覚言語モデリングスタックを、知覚、理解、推論から、DiTベースの動作デコーダによる連続動作および軌道生成へと拡張する、統一的な具現化基盤モデルである。Qwen-VLAは、ロボット操作軌跡、人間の一人称視点デモ、合成シミュレーションデータ、視覚言語ナビゲーションデータ、軌跡中心の教師信号、補助的な視覚言語データなど、多様なデータソースにわたる大規模な共同事前学習レシピを用いて訓練される。複数のロボットプラットフォームをサポートするために、ロボット固有のテキスト記述が現在の身体性と制御規則を指定する、身体性を考慮したプロンプト条件付けを導入する。さらに、操作、ナビゲーション、軌道予測を統一的な動作・軌道予測フレームワークに組み込み、ロボットの形態、タスク群、環境を横断した、転移可能な視覚的グラウンディング、空間推論、連続動作生成を実現する。操作、ナビゲーション、軌道中心のベンチマーク実験では、シーンレイアウト、背景、照明、物体構成、ロボットの身体性の変化に対して、一貫したマルチタスク性能と分布外汎化を示した。Qwen-VLA-Instructは、LIBEROで97.9%、Simpler-WidowXで73.7%、RoboTwin-Easy/Hardで86.1%/87.2%、R2Rで69.0% OSR、RxRで59.6% SR、実世界ALOHA実験で平均76.9% OOD成功率、DOMINO動的操作で26.6%のゼロショット成功率を達成した。
現実世界の情報要求を満たすためには、非構造化テキストやリレーショナルテーブルから知識グラフ、プロパティグラフに至るまで、構造的に多様な知識ソースへのアクセスが必要となる。しかし、既存の検索器は固定された問い合わせ言語のもとで一度に一つのソースしか扱えず、利用可能な知識の広範な風景は互換性のないインターフェースの背後に断片化されたままである。これらを統合する自然な試みとして、ソースを共通の空間に押し込める方法が考えられるが、それでは各ソースに表現力を与えている構造的利点(スキーマ、オントロジー、合成演算子など)が失われてしまう。したがって、多様な知識に対する効果的な検索には、均質化ではなく、各ソースをその本来の形で扱う包括的な層が必要となる。この目標を達成するために、我々はOmniRetrievalを提案する。これは任意の自然言語クエリを受け取り、適切な知識ソースを特定し、各ソース固有のクエリをネイティブ実行エンジンにディスパッチするフレームワークである。テキスト、リレーショナル、グラフ構造のソースにわたる13のデータセットと309の異なる知識ベースからなる広範なベンチマークにおいて、OmniRetrievalは単一ソースのベースラインを上回り、各ソースの価値を生み出す構造的差異を保持しつつ、異種ソースに対する汎用的インターフェースとして機能することを実証した。
カスタマイズ画像編集は、限られたペアデータを用いて事前学習済み拡散モデルに特定の視覚効果を付与することを目的とし、通常はLow-Rank Adaptation(LoRA)によって実現される。所望の効果の数が増加するにつれて、多数のエフェクトLoRAを保存し動的に読み込むことで、導入のオーバーヘッドが大幅に増大する。さらに、現在のパイプラインは一般的に、これらのエフェクトLoRAを高速生成のための高速化モジュールとカスケード接続するが、これにより深刻なパラメータ干渉が発生し、コンセプトの混ざり込みやスタイルの劣化を引き起こす。本稿では、最大50種類の異なるエフェクトLoRAのコンセプトと少数ステップ生成能力を単一のLoRAに蒸留可能な、マルチティーチャー・オンポリシー蒸留フレームワークであるCollectionLoRAを提案する。これにより、特徴干渉問題を根本的に解決し、導入コストを大幅に削減する。具体的には、本手法は以下の要素を導入する。(i)学習中にモデルがデータソースをランダムに切り替えられるようにし、未見のシナリオにおける汎化性を効果的に高める確率的デュアルストリームルーティング機構、(ii)プロンプト空間内でコンセプトの分離を実現する非対称直交プロンプティング戦略、(iii)教師モデルと生徒モデル間の分布のギャップを緩和する粗密蒸留目的関数。広範な評価により、CollectionLoRAはすべてのカスタマイズ効果と少数ステップ生成を単一のLoRAに蒸留し、導入オーバーヘッドを低減しつつ、独立して学習した教師モデルと同等以上のコンセプト忠実度を達成することが示された。
近年、映像拡散基盤モデルは高品質な動画生成において顕著な進歩を遂げているものの、それらをリアルタイムでインタラクティブなビデオ世界モデルに変換することは依然として困難である。インタラクティブな世界モデルには、制御可能性、因果性、低レイテンシでのロールアウトが求められ、実際にはデータ構築、制御可能なファインチューニング、自己回帰学習、数ステップ蒸留、ストリーミング推論にわたる完全なパイプラインが必要となる。本研究では、リアルタイムインタラクティブビデオ世界モデルを構築するためのフルスタックオープンソースフレームワークであるminWMを提案する。minWMは、既存の双方向T2V/TI2Vビデオ基盤モデルをカメラ制御可能な数ステップ自己回帰世界モデルに変換するエンドツーエンドのパイプラインを提供する。具体的には、minWMはまずカメラ制御を用いて双方向ビデオ拡散モデルをファインチューニングし、次にCausal Forcing / Causal Forcing++パイプライン(AR拡散学習、因果ODEまたは因果一貫性蒸留、非対称DMDを含む)を適用して、低レイテンシロールアウトのための数ステップ自己回帰生成器へと蒸留する。本フレームワークはモジュール型でアーキテクチャの拡張が可能であり、クロスアテンションに基づく条件注入とMMDiTスタイルのアーキテクチャの両方をカバーする代表的なオープンバックボーン(Wan2.1-T2V-1.3BやHY1.5-TI2V-8Bなど)上で具体化している。またminWMは、HY-WorldPlayなどの既存のビデオ世界モデルを新しいデータ分布、学習レシピ、レイテンシ目標に適応させることもサポートする。実行可能なスクリプト、チェックポイント、ドキュメント、推論コードの公開に加え、カメラ軌跡品質、制御可能性学習ステップ、最小バッチサイズ要件に関する実用的なアブレーション研究も提供する。minWMがリアルタイムインタラクティブビデオ世界モデルの構築と適応のための再現可能かつ拡張可能なレシピとして機能することを願っている。 プロジェクトページ: [https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)
ビデオ拡散モデル(VDM)がワールドモデルへと進化する中で、重要な問いが浮上する。それは、モデルが因果性を真に理解しているのか、それとも単に統計的な時間的パターンに過適合しているのか、という点である。既存のベンチマークの大半は合成データに依存しており、シミュレーションと実世界のギャップ(sim-to-real gap)のために実世界への一般化が制限されている。本稿では、認知科学における「予期違反(VoE: Violation of Expectation)」パラダイムに着想を得た2階層のベンチマーク「YoCausal」を提案する。実世界の動画をゼロコストで時間的に反転させ、自然な反実仮想的サンプルとして用いることで、YoCausalは任意に拡張可能な評価プロトコルを確立する。第1階層では、逆転驚愕指数(RSI: Reverse Surprise Index)を導入し、ノイズ除去損失を通じて時間の矢の知覚を定量化する。第2階層では、因果認知指数(CCI: Causality Cognition Index)を導入し、視覚言語モデル(VLM)を活用してデータセットを因果サブセットと非因果サブセットに層別化し、真の因果推論と時間的バイアスを分離する。13の最先端VDMを評価した結果、時間の矢を知覚することは因果性の理解を意味せず、人間レベルの因果認知には依然として大きなギャップが存在することが明らかになった。
画像生成モデルは、テキスト条件付きピクセル合成から、視覚的理解やツール呼び出し機能を備えたマルチモーダルエージェントへと進化してきた。しかし、既存のエージェントは依然として内部のブラックボックス的な画像モデルに依存しており、そのワークフローは生成結果を改善するためのプロンプト書き換えを反復するサイクルに閉じ込められ、キャンバスを直接操作する仕組みを持たない。本質的に、LLMを真の「ブラシ」として精密な視覚構築に活用する可能性は、ほとんど引き出されていない。本稿では、人間のアーティストのように——まず概念化し、次にスケッチし、最後に彩色する——エージェントが創造することを可能にするコード駆動型のエージェント画像生成パラダイム、GenClawを提案する。具体的には、まずエージェントが検索と推論を通じて概念知識と文脈を構築する。次にコード(例:SVG、HTML、Three.js)を用いて実行可能なビジュアルスケッチをレンダリングする。最後に画像生成モデルを用いてテクスチャ、マテリアル、フォトリアリズムを補完する。このワークフローにおいて、コードは言語推論とピクセル合成を橋渡しする制御可能な中間キャンバスとして機能し、プログラム的論理と生成モデルの視覚的表现力をシームレスに統合する。画像生成をブラックボックス的なパラダイムから、本物の人間の創作に近い段階的プロセスへと変革することにより、GenClawは高度に制御可能で解釈可能な視覚生成システムへの一歩を提供する。
ビデオ大規模言語モデル(ビデオLLM)は、ビデオ理解タスクにおいて高い能力を示している。しかし、その実用的な展開は、膨大な数の視覚トークンを処理することによる非効率性によって依然として妨げられている。最近のアプローチでは、全トークンベースラインと同等の精度を維持しながら極めて低いトークン保持率を達成しているが、そのほとんどはプリフィリングの後期段階でのみ圧縮を行っており、視覚エンコーダの効率性は最適化されていない。本論文では、まず視覚エンコードが最初のトークンまでの時間(TTFT)に大きな割合を占めることを示す。したがって、視覚エンコーダの後でのみ視覚トークンを圧縮するのではなく、エンコーダ内部で圧縮を行うことには、まだ十分な探求の余地がある。この洞察に基づき、学習不要のトークン圧縮フレームワークであるEarlyTomを提案する。これは視覚エンコーダ内部で早期段階の視覚トークン圧縮を実行し、TTFTの大幅な削減とより高いスループットを実現する。さらに、圧縮効果全体を向上させる分離された空間トークン選択戦略を導入する。EarlyTomは、単一のNVIDIA A100 GPU上でLLaVA-OneVision-7Bモデルに対して、TTFTを最大2.65倍、フロップスを最大61%削減し、全トークンベースラインと同等の精度を維持する。これらの改善により、実世界の本番環境でビデオLLMを展開する実用性が大幅に向上する。
大規模言語モデル(LLM)は、動的な実世界環境において効果的であり続けるために、継続的に学習し知識を更新する必要がある。LoRA(Low-Rank Adaptation)はそのようなメモリ更新に広く用いられているが、既存の研究は主に定性的な下流評価に依存しており、厳密なパラメトリックメモリの定量的な容量限界やその基盤となるダイナミクスはほとんど解明されていない。このギャップを埋めるべく、我々は潜在空間内でLoRAを制御されたメモリ容量プローブとして活用し、厳密なパラメトリックメモリを体系的に定量化する。我々は、損失低減ΔLと有効パラメータ数、シーケンス長を結びつける頑健な冪乗則である「パラメトリックメモリの法則」を導入する。トークンレベルでの詳細な分析は、決定論的な相転移を明らかにし、貪欲デコードにおける逐語的記憶には、予測確率p > 0.5が十分条件であることを示す。これらの知見に基づき、我々はMemFTを導入する。これは、閾値に基づく最適化戦略であり、トレーニング予算を閾値未満のトークンに動的に再分配する。実証評価により、MemFTがメモリの忠実性と効率性を向上させることが示される。コードはhttps://github.com/zjunlp/ParametricMemoryLaw で公開される予定である。
活性化ベースの制御は、推論時に大規模言語モデル(LLM)の内部表現に介入することで動作し、ペルソナやスタイルなどの振る舞いを制御する効果的な手法として注目されている。しかし既存の手法は多くの場合、固定された制御方向やタスク固有の介入モジュールに依存しており、細粒度の概念や構成的な制約への適応が難しい。そこで我々は、自然言語条件から残差ストリーム活性化の条件付き分布を学習する、テキスト誘導型の活性化フローマッチングモデルであるUniSteerを提案する。UniSteerは対象の振る舞いごとに個別の介入を適合させるのではなく、活性化空間において普遍的な条件付き速度場を学習する。推論時には、ソース活性化を部分的に潜在状態へと輸送し、対象のテキスト条件の下でそれを再生成してから凍結されたLLMに注入することで、フロー反転を実行する。この同一の条件付きモデルは、再構成エネルギーが最小となるテキストラベルを選択することで、活性化空間における分類もサポートする。3つの対象LLMに対する実験により、UniSteerが振る舞い制御、真実性制御、細粒度の概念制御、複数制約付き命令追従、そして活性化空間における分類にわたって統一的なインターフェースを提供することが示された。
Vision-Language Models (VLM)は空間推論ベンチマークにおいて高い性能を示すが、これが構造化された三次元理解を反映しているのか、それとも自然画像における統計的な近道(ショートカット)に依存しているのかは依然として不明である。我々は、VLMの埋め込み内で空間軸がどのように編成され、分離されているかを測定するために、最小限の対照ペアを構築する表現レベルの分析フレームワークを導入する。複数のモデルファミリーにわたる我々の分析は、一貫した垂直-距離の絡み合い(vertical-distance entanglement)を明らかにする。すなわち、モデルは画像内の垂直位置と距離を混同しており、これは自然写真の遠近バイアスを反映している。このバイアスは、遠近法的に一貫した例と反ヒューリスティックな例との間に顕著な精度差を生み出し、データスケーリングの下で、全体のベンチマーク精度が向上するにつれて強まる。さらに、類似したベンチマークスコアを持つモデルでも異なる内部表現を示すことがあり、これらの差異が多様な空間推論ベンチマークにおける精度とロバスト性を予測することを示す。このバイアスを評価セットの偏りから切り離すために、我々はSpatialTunnelを導入する。これは、自然画像に存在する一般的な相関を取り除くことで空間的ショートカットバイアスを露呈するように設計された合成ベンチマークである。実験により、この絡み合いがモデル固有のものであり、空間軸が適切に分離されたモデルがより高いロバスト性を示すことが確認された。これは、よく構造化された空間表現が多様なベンチマークにわたってより信頼性の高い空間推論につながることを示唆している。コードとベンチマークはプロジェクトページ(https://cheolhong0916.github.io/whyfarlooksup.github.io/)で公開されている。
共同音声動画生成は、時間的に同期され意味的に一貫した視覚・聴覚コンテンツの合成を目的としている。しかし、既存のオープンソース手法は主に、事後アライメントを用いたデュアルタワー設計か、テキストコンテキスト、音声、動画を単一の共有空間で統合する完全統合型三モーダル設計のいずれかに依存している。前者は細粒度の音声-動画の共同進化を弱め、後者はセマンティック条件付けと低レベル同期を結合してしまう。これらの限界に対処するため、我々はNAVA(Native Audio-Visual Alignment)を提案する。NAVAは、コンテキストにより条件付けられたネイティブな音響視覚アライメントに基づく。すなわち、専用の相互作用空間で音声と動画の対応関係を最初に確立し、その後、外部コンテキストを用いて共同ノイズ除去プロセスを条件付ける。具体的には、NAVAはAlign-then-Fuse MMDiTアーキテクチャにより実装され、モダリティ認識型の音声-動画アライメントからモダリティ共有型の共同ノイズ除去へと遷移する。さらに、Timbre-in-Context Conditioningを導入し、参照音色キューと対応する音声スパンを関連付けることで、制御可能な音声音色を実現する。Verse-BenchおよびSeed-TTSにおける実験とユーザー研究により、NAVAがわずか6.3Bのパラメータで、優れた動画品質、正確な音響視覚同期、競争力のある音声品質、そしてより強力な参照音色制御性を達成することが実証された。
視覚言語モデル(VLM)は、マルチモーダル融合を目的とした大規模画像テキスト学習により、理解・推論タスクの広範な領域で顕著な進歩を遂げている。理想的には、テキストによる質問をそのレンダリング画像に置き換えても、モデルの性能はほぼ影響を受けないはずである。しかし現実には、そのようなモダリティ置換によって劇的な性能低下が生じる。我々はこの「キャリア感受性」問題を、現在の学習コーパスに内在するバイアスに起因するものと考える。 画像キャプショニング、VQA、OCR、Web由来のインタリーブデータといった広く使われるデータセットでは、テキストと画像は通常、明確に区別され非対称な役割に整理されており、テキストは言語クエリ、画像は視覚的な参照として機能する。このようなデータバイアスにより、VLMは異なるモダリティ間で情報取得の明確な選好を示すようになる。その結果、VLMはテキストと画像というキャリア間で意味的に等価な内容の表現を整合できず、モダリティ置換下でのモデル推論が脆弱になる。 この問題に対処するため、我々は局所モダリティ置換(LoMo)を提案する。これは軽量でアーキテクチャに依存しないデータキュレーションパラダイムであり、意味的に等価なテキストキャリアと画像キャリア間のクロスモーダル表現不変性を学習するための教師信号を提供する。LoMoは、単一モダリティのプロンプトをシームレスにインタリーブされたマルチモーダル系列に再構成することでこれを実現する。具体的には、対象のテキストスパンを動的に選択し、それをレンダリング画像に変換することで、「テキスト、ビジュアル、テキスト」のキャリア間で同一の意味を保持する。 13種類の多様なマルチモーダルベンチマークを用いた広範な実験により、LoMoが全体のマルチモーダル推論を大幅に改善し、より深いクロスモーダル融合をもたらすことが示された。特に、基盤モデル全体で一貫した性能向上をもたらし、標準的なSFTと比較して、LLaVA-OneVision-1.5-8Bで2.67ポイント、Qwen3.5-9Bで2.82ポイントの改善を達成した。
強化学習(RL)によるポストトレーニングは、大規模言語モデル(LLM)の推論能力を向上させることが示されている。しかし、RLポストトレーニングにおけるデータ汚染の問題についてはほとんど調査されておらず、これによりトレーニングプロセス自体の汎化性能や評価信頼性が損なわれる可能性がある。既存の検出手法は主に尤度やエントロピーといった出力レベルの信号に依存しているが、RLはトークン尤度ではなく軌跡レベルの報酬を通じて行動を形成するため、RLで訓練されたモデルではこれらの信号の信頼性が低下する。我々は、RLポストトレーニングされたLLMにおける汚染を検出するための層別表現分析フレームワークLaRAを提案する。LaRAは、制御された摂動下での摂動感度、方向性崩壊、局所表現の硬直性を測定する3つの補完的指標を導入する。我々は、汚染が層をまたいで増幅された摂動感度、より強い方向性崩壊、強化された局所硬直性といった漸進的な幾何学的偏差を生じさせることを発見した。この発見に基づき、層と指標にわたる表現レベルの偏差を集約する汚染検出プロトコルも開発する。RLで訓練された推論モデルを用いた実験により、我々のプロトコルが汚染検出において既存の出力レベルベースラインを上回る性能を示すことが明らかになった。
大規模言語モデルに明示的なスキルを付与することは、自律エージェントが複雑なタスクを解決するための有望なパラダイムとして浮上している。エージェントスキルは、広範な認知転移のための一般的スキルと、動的実行のためのタスク固有スキルに本質的に分類できる。しかしながら、既存のスキルベース強化学習(RL)手法は通常、過大なコンテキストオーバーヘッドを伴う完全な外部化と、過適合や知識競合のリスクがある完全な内部化の間で、硬直した選択を強いる。このジレンマに対処するために、我々は一般的スキルの内部化とタスク固有スキルの活用を組み合わせてスキル処理を明示的に区別する、新しいエージェントRLフレームワークであるSkill0.5を提案する。動的かつ難易度認識型のルーターによって駆動され、Skill0.5はタスクを異なる習熟度階層に振り分け、調整された最適化戦略を適用する。すなわち、特権蒸留を介して一般的スキルを内部化し、難しいタスクに対する認知基盤を構築する一方、簡単なタスクでは診断的プロービングを用いてショートカットをペナルティし、特定のスキル活用を強制する。ALFWorldおよびWebShopでの実験は、Skill0.5がメモリベースおよびスキルベースのRLベースラインの両方を上回り、分布内および分布外の両方のシナリオで性能向上をもたらすことを示している。
高密度検索器(dense retriever)が高い関連性スコアを割り当てる理由を説明することは、検索の決定が不透明な高次元埋め込みを通じて行われるため、依然として困難である。既存の説明は、多くの場合、語彙一致、トークンアラインメント、あるいは事後的なテキスト根拠といった表面的な信号に焦点を当てており、埋め込みレベルで高密度検索の振る舞いを形成する潜在因子に対する洞察は限られている。我々は、高密度検索を説明するための埋め込みレベルのメカニズム的フレームワークであるXetrievalを提案する。Xetrievalはまず、軽量な推論内部化器(reasoning internalizer)を導入する。これは、チェーン・オブ・ソート推論を埋め込み空間内で直接、単一のフォワードパスで近似し、文埋め込みに推論指向の情報を付加しつつ、高コストな自己回帰生成を回避する。次に、これらの推論強化埋め込みを、スパースで人間が解釈可能な特徴量に分解する。各特徴量は、首尾一貫した自然言語記述と関連付けられる。複数の文書側ビューにわたるスパース特徴量の重複を集約することにより、Xetrievalは個々の検索決定に対する特徴量レベルの説明を提供する。多様な検索器とベンチマークを用いた実験により、Xetrievalが首尾一貫した解釈可能な特徴量を発見し、より強力なペアレベルの介入効果をもたらし、タスクレベルの特徴量操作を支援することが示された。プロジェクトページとソースコードはhttps://hihiczx.github.io/Xetrieval で入手できる。
長期にわたる対話では、言語モデルは蓄積される情報を管理する必要がある。すなわち、状態をいつ更新し、いつ保持し、何を無視するかである。我々はこの課題を文脈信念管理(CBM)として研究する。これは、タスクに関係のないノイズを分離しつつ、形式的な証拠に沿った予測信念状態を維持することを指す。CBMを測定可能にするため、我々はBeliefTrackを導入する。これはルール発見と回路診断にわたる閉世界ベンチマークであり、有限信念空間とシンボリック検証器によって正確なターンレベルの評価を可能にする。BeliefTrackは三つの失敗を診断する:滞在失敗、更新失敗、分離失敗である。複数のLLMにおいて、ベーシックモデルは深刻なCBMの失敗を示す一方、明示的な信念追跡プロンプトは限定的な改善しかもたらさない。対照的に、信念状態報酬を用いた強化学習は平均で失敗率を70.9%削減する。さらに探索調査により、これらの失敗の背後にある潜在的な信念状態のダイナミクスが明らかになり、表現レベルの操作により二つのタスクで失敗率が46.1%削減される\footnote{コードは近日公開予定: https://github.com/zjunlp/CBM}。
拡散モデルは最先端の画像合成を実現し、その生成軌道は本質的にスペクトルバイアスを示し、低周波の大域構造を初期に、高周波の微細な詳細を後で解像する。従来の確率微分方程式(SDE)ソルバーはこのダイナミクスを考慮できず、全プロセスを通して一様な白色ノイズを注入し、有限のエネルギーバジェットを誤用している。本研究では、SDE推論を対象的で周波数分離されたエネルギー伝達として再考する数学的枠組みを確立する。この枠組みを活用して、新規で学習不要な確率的ソルバーである有色ノイズサンプリング(CNS)を提案する。一様な白色ノイズを注入する代わりに、CNSは動的でタイムステップと周波数に依存するスケジュールを利用し、注入エネルギーを構造的に未解決の周波数帯域により効率的に割り当てる。モデルの内在的なスペクトルバイアスを積極的に活用することで、CNSは生成分布を真のデータ多様体へと体系的に導く。広範な実験により、CNSが厳密なプラグアンドプレイ型の推論時サンプラー置換として、多様なアーキテクチャ(SiT, JiT, FLUX)にわたって標準的なODEおよびSDEベースラインを大幅に上回ることが示される。ImageNet-256における標準サンプリングと比較して、CNSは大幅な非誘導FID削減を達成し、SiT-XL/2では8.26から6.27へ、JiT-B/16では32.39から26.69へ、JiT-H/16では11.88から8.31へ改善し、分類器フリーガイダンスにおいても一貫した相対的なFID改善をもたらす。プロジェクトページは https://hadardavidson.github.io/CNS/ で入手可能である。
密集検索器には位置バイアスが存在し、クエリ関連情報が文書の先頭付近にある場合にその文書を優先し、情報が後方にある場合には検索性能が低下する。従来の研究では、密集検索器における位置バイアスの原因を主にアーキテクチャの観点から説明してきたが、本研究では訓練データ内の証拠の位置分布が検索レベルのバイアス方向にどのように影響するかを検討する。この検証のため、クエリ関連の証拠が文書の先頭、中間、末尾に現れる合成位置指向型訓練セットを構築し、位置に偏りのある分布とバランスの取れた分布のもとで、アーキテクチャの多様な8種類の事前学習モデルをファインチューニングする。ランキングレベルでは、調査したモデル全体にわたって強い方向性パターンが観察された。すなわち、偏った訓練分布は対応する位置の証拠を優先する。位置バランスの取れた訓練により、位置認識ベンチマークにおける位置感度が57~87%低下し、制御された設定下では平均検索性能も競争力のあるものとなった。表現レベルの分析からさらに、ファインチューニングにより学習された位置選好がしばしば再形成されるものの、一部のモデルでは既存のアーキテクチャや事前学習特有の傾向が持続することが示唆された。これらの結果は、訓練時の位置分布が検索レベルの位置バイアスにおける主要な制御可能因子であることを示し、バランスの取れたデータキュレーションが実用的な緩和戦略であることを示唆している。
我々は、LLMエージェントによる対話的因果発見を評価するためのスケーラブルな環境であるCausaLabを紹介する。従来の評価とは異なり、CausaLabはエージェントが因果的証拠を用いて問題を解決できるかどうか、そしてその回答が忠実に回復された因果メカニズムに基づいているかどうかの両方を評価する。各エピソードでは、エージェントを合成実験室に配置する。エージェントは事前の測定記録を受け取り、操作子結晶に介入し、同じメカニズムに支配された保留中の反応器結晶の共振周波数を予測する。隠されたデータ生成プロセスはランダムにサンプリングされた構造的因果モデル(SCM)であり、成功するには事前知識を想起するのではなく、因果グラフと構造方程式の両方を回復する必要がある。 実験では、予測とメカニズム回復の間に持続的なギャップが見られる。純粋な観測設定の6ノードの場合、GPT-5.2-highはタスク精度92%に達するが、全エッジF1は0.471に過ぎない。観測と介入を混合した戦略は構造的忠実度を向上させるが、純粋な介入は強力なエージェントにとっても困難である。我々は早期終了を主要な弱点として特定し、一貫性検証がそれを軽減することを示す。したがって、CausaLabは予測的成功と因果理解を分離し、現在のLLMエージェントが実験的因果推論者として持つ限界を明らかにする。
大規模言語モデル(LLM)ベースのエージェントは、外部ツールを使用して複雑なタスクを解決する強力な能力を示している。しかし、既存の評価ではツール使用の時間的側面、特にツール応答遅延の影響が軽視されることが多く、通常は単一タスク設定に限られている。現実のアプリケーションでは、複数のタスクが同時に実行される必要があることが多く、全体の効率は、エージェントがツール応答を待つ間にアイドル時間を活用できるかどうかに依存する。我々はこの能力を非同期ツール呼び出しと呼ぶ。これを評価するために、我々はAsyncToolを提案する。これは、遅延のあるツールフィードバックを伴うインタラクティブなマルチタスクツール使用環境において、LLMベースのエージェントを評価するためのベンチマークである。AsyncToolは複数の異種タスクを同時に提示し、実行中に現実的なツール応答遅延をシミュレートする。ハイブリッドデータ進化戦略を用いて、複数のシナリオとツール使用パターンをカバーする多様な非同期マルチタスクデータセットを構築する。我々はモデルをステップ、サブタスク、タスクの各レベルで評価し、タスクの調整と完了効率を測定する効率性重視の指標を導入する。広範な実験により、遅延のあるツールフィードバックは現在のエージェントに深刻な課題をもたらし、明確な性能低下を引き起こすことが示された。タスク切り替え、依存関係追跡、状態維持をよりうまく調整するモデルは、AsyncToolでより強力な性能を発揮する。我々の分析は、現在のツール使用エージェントの主要な障害モードを特定し、より強力な時間的推論と調整能力を持つ将来のシステムを設計するための実践的な示唆を提供する。
エージェンティックAI推論の設計空間は、2つの極端な選択肢にまたがっている。すなわち、クラウド上でホストされることが多く、広範なタスクにわたって高い性能を発揮する一方でコストが非常に高いフロンティア大規模言語モデル(LLM)と、オンデバイス推論が可能でより費用対効果の高い小規模言語モデル(SLM)である。オンデバイスモデルとクラウドモデルを組み合わせたハイブリッドマルチエージェントシステム(MAS)は、これらの間の有望な妥協点となるが、タスク精度、金銭的コスト、エッジ端末のエネルギー消費が密接に結合した複雑で十分に理解されていない設計空間を導入する。一般的な設計原則が存在しない中で、ハイブリッド構成要素は最も一般的な選択ではないものの、特定のドメインに合わせたアドホックな決定を通じて導入されることが多い。本研究では、この設計空間をより体系的に検討する。ハイブリッド推論をサポートするよう2つの代表的なMASアーキテクチャを適応させ、個々の設計上の選択が、電力、コスト、性能に関するパレートフロンティア上で動作点をどのように変化させるかを調査する。我々の知見は、ハイブリッドMAS設計の微妙な描像を描き出す。すなわち、SLMはLLMの支援から効果的に恩恵を受けることができるが、最適なアーキテクチャはタスクに大きく依存しており、より強力なフロンティアレベルの計算能力が常に優れた性能に結びつくわけではない。
大規模言語モデル(LLM)は、自律エージェントを、簡潔な事実回答を取得する深層検索から、散在する証拠を統合して長文レポートを生成する深層研究へと進化させてきました。しかしながら、検証可能なマルチモーダル深層研究は、決定論的な真値が存在しない開かれた合成と、テキストによる議論と視覚的証拠を交互に配置する必要性から、依然として困難です。我々は、インタリーブされたレポート生成のためのマルチエージェントハーネスであるPtahを提案します。Ptahは、ユーザークエリからレンダリングされたWebレポートに至るライフサイクルを、計画、調査、作成の各段階を通じて調整します。ここでは、専門エージェントが視覚を考慮した計画を作成し、主張に基づく証拠を収集し、ソースと整合した画像を視覚的ワーキングメモリ(Visual Working Memory)に保持し、宣言的なマルチモーダルツールの使用を通じてレポートを作成します。検証エージェントはハーネスの受理関数として機能し、ワークフロー全体を通じて事実の根拠付け、引用の忠実性、クロスモーダルな一貫性を強制します。さらに、既存のベンチマークに画像レベルおよびプレゼンテーションレベルの評価を追加する評価プロトコルであるPtahEvalを導入します。深層研究ベンチマークを用いた実験により、Ptahが強力なベースライン手法よりも信頼性が高く、視覚的に情報量が豊かで、ユーザーにとって使いやすいマルチモーダルレポートを生成することが示されました。
近年、モバイルGUIエージェントの進展により、モバイルタスクの自動化に大きな可能性が示されているが、現在のほとんどの効果的なシステムは、スクリーンショットの理解や長期的な計画のために大規模視覚言語モデルに依存している。モバイル端末に直接デプロイ可能な小型GUIエージェントは、推論コストの低減やデバイス上の機密情報の保護の面で実用的に魅力的である。しかしながら、モデル容量の制約により、こうした軽量エージェントはスクリーンショットのみからのエンドツーエンドのGUIタスク計画・実行において依然として信頼性が低い。本稿では、再利用可能なアプリ固有のグラフ知識を用いて軽量モバイルGUIエージェントを改善するフレームワーク「Knowledge-Oriented Behavior Exploration (UI-KOBE)」を提案する。UI-KOBEはまず、モバイルアプリケーションを自律的に探索し、ノードが異なるUI状態を表し、エッジが実行可能な遷移を表すアプリ知識グラフを構築する。実行時には、軽量GUIエージェントがこのグラフを外部ガイダンスとして利用し、ユーザのタスクと現在のスクリーンショットから現在のグラフノードを特定し、そのノードに関連付けられた自己ループアクション、隣接遷移、タスク完了、またはフォールバック自由行動の中から選択する。アプリ固有のグラフガイダンスで実行時判断を支援することで、UI-KOBEはエンドツーエンドのGUI計画の負担を軽減し、軽量モデルがモバイルGUIタスクをより効果的に実行できるようにする。これにより、効率的で解釈可能、かつプライバシーに配慮したオンデバイスGUIエージェントへの実用的な一歩を提供する。
端末環境を習得するには、マルチステップ計画、フィードバックに基づく実行、動的状態適応が可能な言語エージェントが必要となる。しかし、現在このようなエージェントの訓練は、スクレイピングした外部リポジトリへの依存によってボトルネックが生じており、ドメインの多様性、環境の制御可能性、特定の能力不足への対応が制限されている。本稿では、ドメイン仕様から直接、実行可能かつ検証可能な端末訓練環境を自律的に生成する、ゼロ依存合成パイプライン「LiteCoder-Terminal-Gen」を紹介する。このフレームワークを用いて、10ドメインにわたる11,255件のエキスパート軌跡を含むLiteCoder-Terminal-SFTと、軌跡レベルの選好最適化のための602の検証可能な環境を備えたLiteCoder-Terminal-RLの2つの大規模リソースを構築した。QwenファミリーモデルをSFTデータセットで教師ありファインチューニングした結果、ベースモデルを大幅に上回るエージェントが得られた。特に、32B変種ではTerminal Bench 1.0、2.0、Proにおいてそれぞれ29.06%、18.54%、34.00%のpass@1を達成した。さらに、RL環境に直接マルチターン選好最適化(DMPO)を適用することで、さらなる性能向上が得られた。これらの結果は、完全に合成された実行可能な環境が、複雑な現実世界のコマンドラインワークフローを習得するための、スケーラブルで検証可能な監視信号を提供することを体系的に示している。
物理的に正確で視覚的に忠実な4D人間-物体インタラクション(HOI)の生成タスクに取り組む。3Dガウシアンスプラット(3DGS)として表現された静的な3D人間と対象物体が与えられたとき、与えられた入力テキストに従って、人間がパンチやキックといった動作を通じて物体と能動的に関わる動的なシーンを合成することを目的とする。そのために、生成的な人間動作と明示的な物理物体シミュレーションを結合する新しいフレームワークPhyGenHOIを導入する。人間を動作拡散モデル(MDM)によって駆動される意味エージェントとして、物体を物質点法(MPM)によってシミュレーションされる物理エージェントとしてモデル化し、3Dガウシアンを統一された微分可能な表現として利用する。それらのインタラクションは、以下の3つの連携メカニズムによって監督される:(1) 生成動作を時間的に同期させて物体に介入させる窓付き引力損失、(2) 衝突時に物理的に一貫した運動量伝達を引き起こす接触駆動再シミュレーションステップ、(3) ビデオベースの事前情報を注入して接触の忠実度を高めるマスク動画SDS目的関数。実験により、PhyGenHOIは多様な動作、人間、物体にわたって物理的に一貫した4D HOIを生成し、ベースラインを凌駕することが示された。プロジェクトページと動画: https://omerbenishu.github.io/PhyGenHOI/
機械学習分野の会議への投稿数の急増は、科学ピアレビューシステムに負担をかけ、大規模言語モデル(LLM)ベースの自動ピアレビュアーへの関心を高めている。しかし、こうしたシステムの実際の品質、とりわけ科学的な欠陥を発見する能力に関して、人間のレビュアーと比較してどの程度優れているかは、未だ十分に理解されていない。本研究では、レビュー品質を「分析の深さ」「新規性の評価」「欠陥の特定と主要問題の優先順位付け」「多次元的な建設性」の4つの次元で評価するベンチマークフレームワークPRISM(Peer Review Intelligence via Structured Multi-dimensional assessment)を導入する。既存の評価のほとんどがROUGEやBLEUといった表面的な指標、あるいは流暢さと厳密性を混同する無制約なLLM-as-a-judgeプロンプトに依存しているのに対し、PRISMは各次元を議論マイニング、検索拡張検証、合意形成に基づくスコアリングに基づいて構築している。我々はPRISMを適用し、ICLR、ICML、NeurIPSからの層別化されたレビューコーパスを用いて、5つの主要な自動レビュアーシステムと人間のレビュアーをベンチマークする。結果は、LLMが個々の次元において人間のレビュアーに匹敵または凌駕することを示している:同等の分析の深さ、より強力な新規性検証、非常に正確な批判の優先順位付けである。しかし、すべての次元において同時に人間のベースラインのバランスの取れた性能に一貫して一致する単一のシステムは存在しない。それぞれが特徴的な専門化プロファイルを示し、固有の盲点——集約指標では完全に見逃される失敗モード——を持つ。このことは、LLMレビュアーは人間によるレビューへの補完的ツールとして最もよく理解され、特定の次元では有効であるが、単独での代替としては信頼できないことを示唆する。デモと主要結果はhttps://khanhthanhdev.github.io/prism-page/で公開している。
ポイントワイズ報酬モデリングは、LLMの事後学習において重要な信号を提供する一方で、主観的で検証不可能な設定における絶対スコアリングに課題を抱えている。ルーブリックベースの手法は、評価を明示的な基準に分解することでこの問題に対処するが、既存のアプローチは通常、最先端LLMに依存し、かつハードなブール集約による同点問題に悩まされる。我々は、ルーブリック生成器とルーブリック条件付き評価器を交互に共同学習し、そのRL段階ではペアワイズ嗜好データのみを使用する交互フレームワーク「RUBRIC-ARROW」を提案する。本手法は、同点を低減する確率ベースのスコアリングルールとフェーズ固有の嗜好ベース報酬、およびポイントワイズ評価器を共に訓練する交互GRPO方式を組み合わせる。大規模な実験により、RUBRIC-ARROWが競争力のある報酬モデリング精度を達成し、下流の方策事後学習において一貫した向上をもたらすことを示す。
ロボット操作は、シーンの動作関連側面を保存する認識に決定的に依存する。しかし、ほとんどのロボット学習パイプラインは、静的認識または視覚言語アライメントのために事前学習された視覚エンコーダに基づいて構築されており、動作理解は下流のポリシーに委ねられている。本稿では、動作理解を認識段階へと組み込む、ダイナミクスを考慮したマルチモーダル事前学習フレームワークDynaFLIPを提案する。異種の人間およびロボットのビデオから画像・言語・3Dフローのトリプレットを構築し、これらを訓練時の教師信号として用いて画像のみのエンコーダを形成する。核となるアイデアは、三つのモダリティが共有超球面空間内で小さな単体体積を張るように促すことである(単体体積が小さいほど強いアライメントを示す)。単純な体積最小化の幾何学的曖昧性と自明な崩壊を避けるため、単体体積最小化をコサイン正則化項および対照的目的関数と組み合わせる。分析により、DynaFLIPは操作に重要な制御関連領域に焦点を当てていることが示される。得られたダイナミクスを考慮した表現は再利用可能な視覚バックボーンとして機能し、VLAを含む多様な下流ポリシーにおいて一貫してベースラインを上回る。このことは、シミュレーションおよび実世界の多様なセットアップで検証されており、分布外シナリオでは最大+22.5%の改善が達成されている。我々の結果は、視覚表現が存在するものだけでなく、行動によって世界がどのように変化するかを符号化するように訓練されるとき、ロボットの汎化性能が向上することを示唆している。
知識集約型の質問応答において事実正確性を向上させるために強化学習を適用する際には、報酬設計のジレンマが生じる。応答レベルの報酬は粗い監督しか提供できず、推論トレース内の正しい記述と誤った記述を区別することができない。文レベルの代替手法はより細かいフィードバックを提供するが、通常はNLI検証器、LLM判定器、または知識検証パイプラインに依存しており、これらは強化学習のスケールで展開するにはコストが高く、特に正確な報酬信号が重要となる稀なエンティティに関する事実に対しては信頼性が低いことが多い。そこで我々は、ニューラル検証器をWikipediaの共起統計に基づくコーパス由来の信号で置き換える、軽量でプラグイン対応のプロセス報酬であるCorVer(Corpus Verify)を提案する。CorVerは文レベルのクレジットを割り当て、単純なアライメントによりそれをトークンレベルのアドバンテージに変換する。必要とするのは0.5Bの抽出器と、一文あたり一回のコーパスルックアップのみである。6種類の指示チューニング済みモデル(3B~14B)と5種類のQAベンチマークからなる30の(モデル、ベンチマーク)セルにおいて、CorVerはすべてのセルで生のベースラインを上回り、TriviaQAでは平均+4.1ポイントの改善を達成した。また、実行可能な設定の下では20セル中18セルで4種類のニューラル検証器ベースラインを凌駕し、訓練速度は4.8~8.4倍高速である。
本稿では、子どもの多様な音響信号を特徴づけるための新規ベンチマーク「ChildVox」を提案する。具体的には、ChildVoxは出生から学齢期までの完全な発達軌跡を追跡し、生理的音、非言語的な発声、標準音節、そして音声言語を網羅する。ChildVoxは17の子どもの音声・発話データセットにわたる20以上のサブタスクを統合し、コーパス間・ドメイン間の体系的な比較を可能にする。我々は、自己教師ありモデル、ASR指向モデル、大規模音声言語モデルを含む代表的な音声・発話基盤モデルを、生理的音の分類、発声・標準音節のモデリング、音声品質評価と認識といったタスクで評価する。ベンチマークの結果、ChildVoxは子どもの多様な音響信号を認識する高性能モデル群を提供し、子どもの言語レベルの特徴づけや年齢に伴う音声発達の追跡といった応用を支援する。
マルチモーダル大規模言語モデルは、長期的なタスクを遂行するエージェントとしてますます活用されるようになっている。この場合、メモリは単なる記憶の想起にとどまらず、変化する世界の追跡、陳腐化した情報の修正、意思決定時における適切な証拠の提示を行う必要がある。既存のベンチマークは、静的な対話における想起を測定し、メモリをタスク終了時の単一の正解率に還元し、視覚的観測をキャプションに縮約しているため、書き込み、維持、検索、利用といった各段階における障害を特定できない。さらに、自らメモリを管理するエージェント用ハーネスの台頭により、手動設計のパイプラインと自己管理型の代替手法を原理的に比較する手段がないため、このギャップは一層顕著になっている。これらの課題を解決するために、マルチモーダルエージェントのメモリを、観測可能な4段階のライフサイクルを持つ行動-世界相互作用ループとして定式化し、それをWorldMemArenaとして具体化した。これは、生涯学習(進化する個人状態とタスク状態)とエージェント実行(実際の観測、行動、フィードバックに基づくメモリ)にわたる400のマルチセッション・マルチモーダルタスクから構成され、各段階の診断のために、金標準のメモリポイント、更新、ディストラクタ、証拠連鎖が注釈されている。これにより、長いコンテキストを持つシステム、手動設計のシステム(RAGや外部メモリシステム)、ハーネスベースのメモリエージェントの初めての直接比較が可能となる。結果は以下のことを示している。(1) メモリの書き込みと保存が優れていても、必ずしも性能が向上するとは限らない。(2) マルチモーダルメモリは、視覚的証拠を十分に活用することに依然として苦慮している。(3) システムは領域によって不安定であり、現実的なエージェント軌道上で性能が低下する。(4) ハーネスメモリは柔軟性が高いものの、依然としてコストが高く信頼性に劣る。
ワンショットのProgram-of-Thought(PoT)は、プリミティブなアクションプランを出力するPythonプログラムを生成するが、単一の無効アクションが軌道全体を無効化してしまう。我々はRePoT(Recoverable PoT)を導入する。これは、計画を環境内で最初の無効遷移まで実行し、その後、検証済みプレフィックスから再開する1回のLLM呼び出しを行う、決定論的で検証可能なリプレイである。RePoTは、PoTが失敗する約14%の問題に対して、最大で1回の追加LLM呼び出しを要する。RePoTは、PuzzleZoo-775における4つのクローズドモデル構成でPoTを+3〜+11pp上回り、gpt-5.4-mini-mediumでは86.3%に対して96.9%のピークを達成する。同予算のPoTリトライベースラインと比較して、RePoTはGeminiで決定的に勝利し(+3.8pp、95%信頼区間[+2.2,+5.4])、GPT-mediumとClaudeではサンプリングノイズの範囲内であり、GPT-miniでは敗北する——これは能力スケーリングパターンであり、我々はこれをAdaptive RePoT(検証済みプレフィックス長に基づいてサフィックス修復と新規PoTリトライを振り分けるルールベースのディスパッチャー、予備的)で対処し始めている。我々はこれをPlanBench Blocksworld(+1.1〜+11.4pp)および4つのオープンウェイトモデル(4つのうち3つで+3.3〜+20.0pp)でも再現する。我々の制御されたリカバリベンチマークであるDerail-550では、チェックポイント情報にアクセスできるすべての条件が、GPT-mediumで30%以上、Geminiで70%以上の成功率を達成し、エラーのみのフィードバックでは3.1%以下である——これは、具体的な検証済みプレフィックスの末尾ではなく、チェックポイント情報が負荷のかかるリカバリ信号であることを示している。
大規模モデルは小規模モデルでは学習できないタスクを学習する。この現象の原動力は何か?我々は、べき乗則スケーリングが既に示唆している単純な現象論的議論を展開する。すなわち、大規模モデルは、無限の訓練データがあっても小規模モデルが学習できないデータ分布の一部を学習できるというものである。この主張を検証しその原因を特定するために、単調なスケーリング曲線を示すタスクの混合からなる合成設定においてモデルスケーリングの影響を調べる。その結果は、データに起因するリソース(ニューロン)をめぐる競争を示唆している。具体的には、小規模モデルはニューロンを高頻度または低複雑性のタスクに割り当てるため、稀で複雑なタスクに対してパフォーマンスの低い解を学習する。さらに、これは望ましいタスクを表現できる解が存在する場合でも発生する。次に、大規模モデルがこのデータ中心のボトルネックをどのように回避するかを評価し、それが干渉低減メカニズムに起因することを見出した。大規模モデルは一般的なタスクに十分なリソースを割り当てられるため、それらのタスクに対する勾配更新が弱くなり、結果として稀なタスクの特徴がゆっくりと蓄積されていく間に上書きされることがない。最後に、これらの主張をさらに検証するために、OLMoモデル(4Mから4Bパラメータ)を、頻度と複雑性が異なる新しいタスクで事前学習する。その結果は合成データ実験の結果を反映しており、大規模なOLMoモデルのみが低頻度かつ複雑なタスクを学習し、これらの大規模モデルは表現により多くのタスク特徴を埋め込み、タスク間の勾配干渉が少ないことを示している。全体として、我々はなぜ大規模モデルが小規模モデルでは学習できないタスクを学習するのかについて、データ中心の説明を提供する。これは、実務において大規模モデルが優れている理由を説明する助けとなり、モデルサイジングや訓練データの混合に関する実践的な問いに示唆を与えることができる。
データ駆動型アプローチは3Dビジョンに革命をもたらし、トランスフォーマーを用いて静的な3Dオブジェクトの再構築や生成を効果的に実現してきた。しかし、包括的な3D世界モデルの構築において重要性が高いにもかかわらず、シミュレーション可能な4Dダイナミクス(様々な物理条件下での静的オブジェクトの現実的な時間変形)の生成は依然として難しく、場当たり的な手法に留まっている。既存手法のほとんどは、あらかじめ定義された物理モデルを前提とし、システム同定によってパラメータを推定するため、特定のカテゴリや小規模データセットに制限される。本研究では、オブジェクト中心の物理システムに対してデータ駆動型の運動学的状態パラメータ化を学習することで、これらの制約を克服できると提案する。具体的には、オブジェクトのすべての可能な状態を表現する潜在空間と、サンプリングされた任意の潜在変数をオブジェクトのもっともらしい変形形状に写像するデコーダの両方を学習する。このパラメータ化をNeural Object Kinematics (NeuROK) と呼び、キュレーションされた大規模4Dデータセット上でトランスフォーマーに基づくエンコーダ・デコーダモデルを学習する。この定式化と学習済みモデルにより、シミュレーション可能なダイナミクスの生成が大幅に簡略化される。なぜなら、古典物理学におけるラグランジュ力学の観点から、低次元の潜在空間内でのダイナミクスのみを考慮すればよいからである。本手法の神経シミュレーションフレームワークが多様な動的オブジェクトに対して有効かつ汎用的であることを示し、先行研究に対する明確な優位性を実証する。プロジェクトページ: https://chen-geng.com/neurok
自己回帰型ビデオ拡散モデルは、フレームを逐次的に生成し、各チャンクを以前に生成されたコンテンツに条件付けながら、ストリーミングビデオを生成する。これらのモデルは構造的に最初のフレームに固定されている。すなわち、そのキー・バリュー表現はアテンションキャッシュ内で特権的な位置を占め、生成全体を通じて主要なシーン参照点として機能する。キャッシュ内で最もクリーンで誤差の少ない位置であるこのアンカーは、不均衡な注意を引きつけ、ビデオのダイナミクスを抑制し、シーンが自然に変化してもシーン構成を初期視点に固定する。その結果、動き、カメラ移動、シーンの進行が静的ー貫性のために抑制された、時間的に浅いビデオが生成される。この問題に対処するため、我々は静的アンカーを適応的状態に置き換える。これは隠れ潜在変数であり、各チャンクにおいてコンテンツと共にモデルがノイズ除去を行うが、レンダリングは行わない。モデルは凍結された最初のフレームを参照する代わりに、前の状態と現在のコンテンツの両方に注意を向けることで各ステップで自身のシーンアンカーを生成し、生成されたコンテンツとともに進化する参照を生成する。時間の絶対的な概念を符号化する標準的なビデオ生成とは異なり、我々の定式化は時間を相対的に扱う。すなわち、すべての生成ステップは、生成がどの程度進行したかに関わらず、同じ位置構造を見ており、状態遷移はすべてのチャンクで同一である。これらの特性により、生成プロセスに再帰性が導入され、ノイズ除去が遷移関数として機能し、KVキャッシュがそのキャリアとして機能するため、外部モジュールは不要となる。実験により、適応的状態がビデオのダイナミクスを大幅に改善し、生成されたビデオ内でより豊かな動きと自然なシーン進行を可能にすることが示された。
自然生成は大規模言語モデル(LLM)に豊かな推論を伴う自由形式の応答を生成させる一方で、構造の欠如により出力の検証が困難となる。対照的に、制約付きデコーディングは標準化された形式を保証するが、生成過程の早期に制約を課すことで意図せず推論能力を制限し得る。我々は、自由形式の推論と構造化生成を単一の呼び出しで組み合わせたハイブリッド手法、すなわちIn-Writingを提案する。本モデルはまず制約のない推論を行い、トリガートークンが生成された後にのみ構造化デコーディングを適用することで、推論とフォーマットを明示的に分離する。我々のトリガートークン戦略により、制約付きデコーディングが進行中の推論を中断する障害モードである早期トリガリングをほぼ完全に解消できることを立証する。分類および推論タスクを網羅する多様なデータセットでの評価は、本手法が最先端手法を上回り、自然生成と比較して最大27%の精度向上を達成することを示している。コードは以下で入手可能である:https://github.com/Nokia-Bell-Labs/InWriting
動画の物語性は、その知覚的価値を根本的に決定づける。既存の映像生成手法は視覚的に魅力的なコンテンツを生成できるものの、テキストプロンプトや最初/最後のフレームといった疎な条件信号に依存しており、物語構造や時間的ペーシングの精密な制御が制限されている。本稿では、複数のキーフレームを通じて映像生成モデルの物語生成能力を強化するフレームワークSmartDirectorを提案する。SmartDirectorは、単一ショット生成、マルチショットナラティブ合成、映像拡張といった柔軟な生成シナリオに対応する。本フレームワークは2段階で動作する。Director-Genは入力キーフレームに基づいて低解像度の映像を生成し、Director-SRは高解像度キーフレームを意味的アンカーとして活用することで、微細なディテールを復元し出力を高精細化する。ロバストなマルチキーフレーム学習を実現するため、映画から単一ショットおよびマルチショットのシーケンスを厳選するデータパイプラインを構築した。広範な実験により、SmartDirectorが既存の最先端手法を大幅に上回る性能を示すことを実証する。今後の研究促進のため、コードを公開する予定である。
オクルージョン対応予測は、未観測領域の本質的な不確実性により、自動運転における重要な課題であり続けている。既存のアプローチは、到達可能な状態に基づいてリスクを過大評価するか、高いオクルージョンの不確実性のもとで正確な軌跡を予測することに苦慮している。これらの限界に対処するため、我々は部分観測環境に対する統一リスクマップのモデリングと学習フレームワークを提案する。本手法は、時空間モデリングを通じて交通流リスクと衝突リスクを統合し、遮蔽によって引き起こされる危険性の詳細な評価を可能にする。遮蔽されたインタラクションを含むシナリオの不足に対処するため、現実的でありながら敵対的なシナリオを生成する拡散ベースのシナリオ生成フレームワークを導入する。統一リスクマップのモデリングと学習を、部分観測下でのリスク認識計画をサポートするフレームワークに統合する。Waymo Open Motion Datasetでの実験により、本手法が最先端のオクルージョン対応ベースラインを大幅に上回り、最小衝突時間を0.78倍、平均衝突時間を1.67倍改善することが示された。提案フレームワークは、部分観測環境におけるリスク認識計画のための包括的かつ実用的なソリューションを提供する。
自己教師ありビジョンモデルおよびテキストから画像への拡散モデルから得られる基盤特徴量は、意味的対応推定において有効であることが示されている。しかし、これらの特徴量は主に2D画像の目的関数から学習されるため、明示的な3D認識を欠いており、対象の対称な側面、繰り返し部分、および3Dでは異なるが視覚的に類似した構造をしばしば混同する。そこで本稿では、3D基盤モデルからの事前知識を組み込むことで、既存の2D基盤特徴を超える、3D認識可能なポストトレーニングフレームワークを提案する。本手法は、入力画像に対しSAM3Dを用いてオブジェクトの形状と姿勢を推定し、レンダリングと比較による最適化を通じて姿勢を精緻化する。続いて、推定されたオブジェクト姿勢に基づき、再構成された形状からPartField記述子を画像平面上にレンダリングする。得られた形状認識特徴マップはDINOおよびStable Diffusionの特徴を補完し、再構成形状上の測地距離により対応候補の信頼性のあるフィルタリングが可能となる。フィルタリングされた対応点を教師信号として、DINOとStable Diffusionの上部に軽量アダプタを学習し、意味的対応を実現する。姿勢アノテーションを必要とし粗い球面幾何学に依存する従来のポストトレーニング手法とは対照的に、本手法はインスタンス固有の3D構造を自動的に取得し、それを用いて対応学習を導く。実験により、本手法は手動の幾何学的教師を削減しつつ、従来手法よりも意味的対応を改善することを示す。コードとモデルはhttps:/github.com/GenIntel/3D-SCで入手可能である。
マルチモーダルWebエージェントの最近の進歩は、多くの場合、推論時計算の増加に依存しています。これには、ロールアウト探索、検証パス、オフラインスキル発見、専門モデルスタックなどが含まれます。このことは中心的な疑問を提起します。Webエージェントは、経験を蓄積するにつれて、よりコストがかかるようになるのではなく、より効率的になることができるのでしょうか? 我々はまず、VisualWebArenaの軌跡を分析し、非効率性の3つの反復的な原因を特定します。それは、アクション反復ループ、隠れた探索コスト、および低いプロンプトキャッシュ再利用です。次に、構造化されたスキルライブラリを維持し、進捗状況の振り返り、信頼度に基づくスキルの降格、階層的ルーティング、視覚的圧縮、およびキャッシュ認識型プロンプティングを組み合わせた、シングルロールアウトのオンラインスキル蒸留フレームワークであるPANDOを紹介します。 910のVisualWebArenaタスクの全セットにおいて、PANDOは58.3%の成功率を達成し、SGV(54.0%)と我々のWALT再現(45.2%)を上回りながら、SGVより58%少ないトークン数、WALTより61%少ないトークン数を使用しており、事前評価の探索予算は一切必要としません。300タスクによるアブレーション実験はさらに、ルールとルーティンが成功の向上の大部分をもたらす一方、ルーティング、圧縮、およびキャッシュ認識型プロンプティングが、より大きなスキルライブラリをより低い限界トークンコストに変換することを示しています。 最後に、我々は3つの軌跡レベルの効率指標、すなわちアクション反復率(Action Repetition Rate)、ステップオーバーヘッド比率(Step Overhead Ratio)、およびプロンプトキャッシュ利用率(Prompt Cache Utilization)を導入し、最終的な成功を超えて効率性を可視化します。
長時間にわたるLLM推論において、キー・バリュー(KV)キャッシュはGPUメモリの支配的な消費源となり、トークンごとのアテンションのコストはますます高くなっている。多くの一般的な退避ポリシーは静的な再帰性ウィンドウや過去のアテンションに依存しており、各デコードステップで計算されるシグナル、すなわちモデルの現在の不確実性が活用されていない。本稿では、CONF-KVを提案する。これは、次トークン分布をスカラーの信頼度スコアに変換し、それに基づいてステップごとのキャッシュ予算を決定するKVキャッシュ管理手法であり、モデルが不確かな場合はより多くのコンテキストを保持し、確信がある場合は積極的に削減する。各予算内では、累積アテンション質量と再帰性の複合指標でトークンをランク付けし、保護された最近のウィンドウにより局所的な一貫性を維持する。本ポリシーは、ブロック単位のオンラインソフトマックスアテンション、FP16/INT8混在ストレージ、およびピラミッド型のレイヤー別予算バリアントと組み合わせる。4つのモデルファミリーと最大4Kの生成長において、CONF-KVは固定512トークンスライディングウィンドウと同等のフットプリントを維持しつつ、フルKVとの困惑度差は1.5~2.1ポイント以内に収まる。最大32KトークンのNeedle-in-a-Haystackタスクでは、CONF-KVの検索精度は91.4%であり、スライディングウィンドウの53.8%、H2Oの80.6%を上回る。75のVisualWebArenaタスクでは、CONF-KVはフルKVの成功率の95.3%を保持し、ピークメモリを2.8倍削減する。
大規模言語モデル(LLM)は、指示追随や複雑な推論能力がますます高まっており、パラメータ更新を行わずにモデルを適応させる柔軟なインターフェースとしてプロンプティングが活用されている。しかし、プロンプトの設計は依然として手間がかかり、書式や言い回し、指示の順序に極めて敏感であるため、推論時の柔軟性を維持しつつ手作業を減らす自動プロンプト最適化手法が注目されている。既存手法の多くは、プロンプト候補の探索や、個別の例や小バッチに基づく固定的な批判・修正パイプラインに依存しており、系統的な誤りパターンを捉え、失敗履歴に基づいた対象を絞った修正を行う能力が限られている。本稿では、人間のプロンプトエンジニアによる反復的な作業フローをLLMの関数呼び出しで模倣するフレームワーク、Reflective Prompt Tuning(RPT)を提案する。LLMオプティマイザは、診断関数を呼び出して最適化セット全体で対象モデルを評価し、再発する障害モードを要約し、構造化された診断レポートを返す。オプティマイザはこのレポートと、過去のレポートを蓄積したメモリを用いて、次の反復でプロンプトを修正する。RPTはさらに、診断フィードバックと最終的なプロンプト選択にキャリブレーションシグナルを活用することで、信頼度を考慮した最適化を実現する。3つの推論タスクにおいて、RPTは初期プロンプトから最大12.9ポイントの改善を示し、最先端手法と競合しつつ、信頼度のキャリブレーションも向上させた。分析の結果、RPTは特にマルチホップ推論や数学的推論において効果的であり、診断された障害パターンに沿った対象を絞ったプロンプト修正を行い、タスク性能とキャリブレーションの両方で改善をもたらすことが明らかになった。
大規模言語モデル(LLM)は人工知能の中心的パラダイムとなっているが、その核となる計算プリミティブであるアテンションは構造的に変化していない。Local Linear Attention(LLA)は、テスト時回帰フレームワークにおけるノンパラメトリック統計に由来するアテンション機構である。効率的なアテンションの変種に関する先行研究とは対照的に、LLAはsoftmaxアテンションにおける局所定数推定を局所線形推定に拡張し、連想記憶に対して理論的に優れたバイアス・バリアンストレードオフを実現する。しかしLLAは、計算上の問題や数値的安定性の懸念から、LLMの事前学習において大規模化されていなかった。我々は、LLMにスケーラブルなパラメータ化Local Linear AttentionであるParallaxを導入する。ParallaxはLLAにおける数値解法を排除し、KV共分散を調査する追加のクエリ的プロジェクタを学習する。我々はParallaxを、バンド幅、プローブ構築、アフィン構造によって結びつけられた一連のアテンション機構ファミリーの中に位置づける。FlashAttentionと比較して演算強度を高め、アテンションをより計算バウンドな領域へと移行させるハードウェア認識アルゴリズムを提案する。我々のプロトタイプデコードカーネルは、多様なバッチサイズとコンテキスト長において、FlashAttention 2/3と同等以上の性能を示す。Parallaxを0.6Bパラメータおよび1.7Bパラメータで事前学習し、事前学習全体を通じて一貫したパープレキシティの改善を確認し、その利得はダウンストリームベンチマークにも転移する。この優位性はパラメータマッチングと計算量マッチングの両方の制御下で持続し、パレート改善を示している。我々は慎重な事前学習アブレーションを実施し、MuonがParallaxの能力を解放する新規な現象を特定した。本論文の知る限り、これはアーキテクチャ研究文献において、アテンション機構に対する強力なアーキテクチャ・最適化器の共同設計を実証した最初の結果である。
人間からのフィードバックによる強化学習(RLHF)は、大規模言語モデル(LLM)を人間の選好に合わせるための標準的手法である。本研究では、アライメント改ざん(alignment tampering)という潜在的脆弱性を紹介する。これは、チューニング中のLLMが選好データセットに影響を及ぼし、その結果RLHFが望ましくない振る舞いを増幅してしまう現象である。この問題はRLHFの根本的な限界に起因する:(1) 選好データセットがLLM自身の出力から構築されるため、LLMがデータセットに影響を与えられる点、(2) ペアワイズ比較が単にどちらの応答が優れているかを示すだけで、その理由を明示しない点である。これらの限界が悪用されると、アライメント改ざんが引き起こされる。例えば、LLMが偏った応答をより高い品質で生成した場合、アノテーターは品質に基づいてその応答を選好する。しかし、選好ラベルは品質とバイアスを区別せず、報酬モデルもこの限界を引き継ぐ。こうした報酬を強化学習やBest-of-Nサンプリングで最適化すると、ミスアライメントなバイアスが増幅されかねない。本実験では、キーワードバイアスからプロパガンダ(例:性差別)、ブランド宣伝、手段的目的追求に至るまで、多様なバイアスにおける増幅を実証する。既存のロバストなRLHF手法は応答品質を犠牲にせずにアライメント改ざんを完全には解決できないため、対策は依然として難しい。これらの知見は、現在のRLHFが構造的な脆弱性を抱えることを明らかにし、その防止の必要性を強調する。プロジェクトページ:https://alignment-tampering.github.io/
大規模なAPIカタログにわたるツール検索は、LLMエージェントにとって核心的なボトルネックとなる。ユーザーのクエリは口語的で、しばしば曖昧な表現で届く一方、カタログは技術的なAPI語彙を使用しており、固定されたエンコーダだけではその溝を埋めることができない。対照的なエンコーダの微調整と、凍結されたLLMを用いたHyDEスタイルのクエリ拡張という2つの主要なトレーニング手法は、この問題を対極からアプローチし、相互補完的に失敗する。微調整されたエンコーダは、クエリの表面的な形式がすでにカタログと一致している場合に優れるが、一致しない場合には性能が崩壊する。一方、ゼロショットHyDEは曖昧なクエリに対してより頑健であるものの、カタログを考慮しない仮想的な記述を生成するため、クエリが適切に形成されている場合には検索性能を低下させる。我々は、疎なエンコーダとLLMリライターを単一の共進化システムとして訓練する反復手法CoHyDEを導入する。エンコーダは、リライターが生成したカタログスタイルの仮想的記述を用いてInfoNCEで再訓練され、リライターはエンコーダの検索スコアに対するDPOによって嗜好アライメントされる。両者はループ開始前にツールカタログでウォームスタートされる。ToolBenchカタログの約1万ツールのサブセットにおいて、3ラウンドのCoHyDEは、最も強力な単一コンポーネントベースラインに対して、標準クエリで+2.5ポイントのNDCG@5向上、未見の曖昧なクエリで+6.3ポイントの向上を示し、最も困難な曖昧クエリの階層では最大+8ポイントの向上を達成した。アブレーション実験により、共訓練が鍵となる要素であることが確認された。つまり、いずれかのコンポーネントを単独で使用すると、適切に形成されたクエリと曖昧なクエリの両方でCoHyDEに及ばず、曖昧なクエリでは最大-8ポイントの損失が生じる。
我々は、微調整済みLLMの主要な配布形式であるLoRAアダプタに対して、学習データのポイズニングを通じて、ベースラインタスク性能を維持しながら信頼性高くバックドアを仕込めることを示す。Qwen 2.5 1.5Bプロンプトインジェクション分類器において、ごく一部のポイズニングサンプルにより、クリーン精度を維持するバックドアが飽和に達する。結果として生じるバックドアは、構造パターンレベルではなくトークン特徴レベルで汎化する。すなわち、あるRFC参照で学習されたモデルは任意のRFC参照で活性化するが、構造的に同一のISO、OWASP、CWE、NISTの引用には転移しない。この非対称性は攻撃者に有利に働く。なぜなら、防御者は「構造化された引用」を汎用的に探索できないからである。 本攻撃を、ベースモデルの規模と系統、LoRAランク、トリガー文字列にわたって特徴づけ、さらに、マルチシードアダプタコホートに対して2つの相補的な検出経路を評価する。2つのプローブバッテリ統計量(outlier_gapとmean_attack_rate)から構築された行動検出器は、プローブバッテリがトリガーのトークン近傍と重なる場合にポイズニングアダプタとクリーンアダプタを完全に分離し、重ならない場合には偽陽性ゼロで高い再現率を達成する。重みレベルの統計量である、次元正規化フロベニウスノルムのモジュール間標準偏差も、モデルを起動せずにコホートを完全に分離する。これらの2つの経路を組み合わせることで、プローブ構成に対してロバストとなる。因果パッチングにより、バックドアは中間から後半の層のMLPブロックに局在し、down_projが最も強い単一射影の原因であることが示される。 規模、系統、ランクにわたる再現実験により、行動検出器は再調整なしで転移する一方、重みレベルの検出器はベースモデルに対してキャリブレーションに依存することが示される。攻撃はランクに対して単調にスケールし、選択されるトリガーアンカートークンはトリガーとベースモデルの両方に依存する。行動検出は、アダプタサプライチェーンスキャニングにおいて運用上移植可能な結果である。
視覚言語モデル(VLM)は、頑健な3D空間推論にしばしば苦戦する。3D視覚質問応答(VQA)データセットによるファインチューニングに依存する従来手法は、データセット固有のバイアスに過適合する可能性があり、一方で特殊な3D視覚エンコーダを統合する手法は、柔軟性に欠け煩雑であることが多い。本論文では、真の空間理解は高レベルのVQAによる教師信号だけでなく、基本的な幾何学的前提知識を学習することから生じるべきだと主張する。我々はGASP(Geometric-Aware Spatial Priors)を提案する。これは、これらの前提知識をLLMのトランスフォーマー層に直接注入するフレームワークである。GASPは、全層にわたる深層教師信号として適用される小型の対応関係ヘッドを採用し、大規模ビデオシーンからの正解幾何情報を活用した二重目的関数で訓練される。すなわち、正解の点対応関係に関する対照学習により2Dの視点不変性を強化し、深度一貫性の教師信号により3Dの幾何学的曖昧性を解消する。我々の分析ではまず、標準的なVLMの内部対応関係マッチング精度が非常に低い(しばしば5%未満)ことを示す診断結果を提示する。次に、我々の訓練がこの振る舞いを大幅に改善し、層ごとの対応関係をピークで70%以上に向上させ、時間的ロバスト性を85%以上に維持する一方、ベースラインは5%未満にとどまることを実証する。これらの内部改善は、下流の空間ベンチマークにおいて顕著な性能向上につながり、All-Angles Benchでは+18.2%、VSI-Benchでは+29.0%を達成する。これらはいずれも3D VQAデータを用いた訓練を一切行わずに実現された。我々の発見は、基本的な幾何学的前提知識からの学習が、より信頼性の高い3D空間推論を備えたVLMへの有望かつ一般化可能な道筋であることを示唆している。
本稿では、協調性を高めるための2層構造のオートリサーチ(自動研究)を検討する。すなわち、外部ループのAIエージェントが、マルチエージェント逐次的社会ジレンマ(SSD)向けLLMポリシー合成システムの内部ループパイプラインを自律的に再設計する。研究者エージェントR(コーディングエージェントとして動作)は、内部ループのソースコードを読み込み、システムプロンプト、フィードバック関数、ヘルパーライブラリ、反復ロジックを編集し、評価を実行して、保持すべきものを決定する。これはオートリサーチのパラダイムに従うものである。2種類のゲーム(CleanupとGathering)、2種類のポリシー合成LLM、および2種類の厚生目的(功利主義的効率性とロールズ的マキシミン)において、研究者は手設計のベースラインを確実に上回り、試行間の分散を大幅に狭め、プロンプトのみの最適化を凌駕する。発見されたパイプラインは目的に依存する。マキシミンの下でのみ、研究者は合成器パイプラインに明示的公平性メカニズムを注入する。このメカニズムは、研究者自身の目的に依存しないシステムプロンプトや、すべての効率性最適化パイプラインには存在しない。これは情報設計的解釈を裏付けるものであり、研究者が厚生目的に応じて、限定合理性を持つ合成器に何を開示するかを選択していることを示している。コードはhttps://github.com/vicgalle/autoresearch-social-dilemmasで公開されている。
我々は、音声・映像ストリームに対するネイティブなオンライン推論を通じて評価される、リアルタイム全モーダル大規模言語モデルのためのストリーミングベンチマークであるOmniInteractを紹介する。オフラインの動画理解やテキストプロンプトによるストリーミングQAとは異なり、OmniInteractは元の音声・映像ストリームを保持し、モデルが将来のコンテンツにアクセスせずにそれをオンラインで処理することを要求する。ユーザのクエリや環境音は音声トラックに埋め込まれており、モデルはマルチモーダルトリガーを検出し、応答するタイミングを決定し、ストリームが進行する中で回答する必要がある。 OmniInteractは、時間的に根拠づけられた応答スロットを1,430個含む250本のビデオで構成される。その内訳は、リアルタイム、プロアクティブ、ネストされたシナリオにわたる1,062個の1Q1Aスロットと、継続的なタスク監視とステップガイダンスのための368個の1QnAスロットである。各スロットには、トリガー、応答ウィンドウ、目標回答が含まれる。 我々は、応答の正確性、タイミング、無効な出力、割り込み処理、コンテキストの継続性を、Interaction-Aware Quality-Timeliness F1(IA-QTF1)、Interruption Diagnostic Suite、およびNested Chain Completion Scoreを用いて評価する。実験結果は、現在のモデルがストリーミング対話において依然として弱く、最高の全体的なIA-QTF1が0.368、最高の1QnA IA-QTF1が0.052にとどまることを示している。全二重設定での数学的推論に関するさらなる研究は、オフラインの能力が必ずしもオンライン対話に転移しないことを示している。コードとデータセットは、https://github.com/Lucky-Lance/OmniInteract で公開される予定である。
高忠実度な3Dガウシアンヘッドアバター生成は、AR/VR、テレプレゼンス、デジタルヒューマンといったアプリケーションにおいて極めて重要である。既存手法は多視点データセット、3Dキャプチャ、または中間的な2D視点合成に依存している。対照的に、我々は多視点データや3D教師信号、中間視点生成を用いることなく、ランダムにサンプリングされた2D画像のみから条件付きおよび無条件の3Dヘッドモデルを学習する。本稿では、MVCHeadを提案する。これは、3D表現において直接的に多視点一貫性(MVC)を強制し、その制約下で3Dガウシアンを回帰する単一画像ベースの状態空間モデルである。核心部として、階層的状態空間(HiSS)ブロックを導入する。これはガウシアンを粗から細へと段階的に洗練しつつ、長距離依存関係を捉える。各HiSSブロック内では、Mambaの標準的な一方向スキャンを、多視点間の不整合が最も顕著となる軸に沿って再帰性を整列させる提案の階層的双方向状態スキャン(HiBiSS)で置き換える。さらに、SE(3)多視点批評器を設計する。これは、一連の自己レンダリング結果が単一の3D構成から生じたものであるかを判定し、実際の多視点ペアを観測することなく、クロスビューの画素位置合わせに報酬を与える。MVCHeadは最先端の知覚品質を達成し、テクスチャと幾何の一貫性において先行手法を上回り、形状の一貫性においても同等の性能を維持する。スケーラビリティを示すため、3Dヘッドモデルの学習と評価に利用可能な、初の大規模データセットであるFaceGS-10Kを公開する。プロジェクトページとコード: https://humansensinglab.github.io/MVCHead/
グローバル化と多文化主義の進展により、言語変種はますます多様化している。しかし、現在の音声対話システムは、代表性の低い方言やアクセントに対してしばしば失敗し、入力言語を誤認することで、下流の対話タスクに連鎖的な障害を引き起こす。このような方言変異に対処することは、低リソース条件下では依然として未解決の課題であり、標準的なファインチューニングは計算コストが高く、高次元の音声データに対して過学習しやすい。本稿では、音声対話システムのパイプラインに理論的に基づいた凸最適化手法を統合する、新たなフレームワーク「凸言語検出(CLD)」を提案する。本手法は、JAXにおけるマルチGPU向け交互方向乗数法(ADMM)により効率的に実装され、大域的最適性の保証と多項式時間での高速な学習を実現する。理論的には、凸目的関数が認証されたマージン安定性を導くことを証明し、特徴量摂動に対する保証を提供する。実証的には、サンプル効率と入力方言変異に対する頑健性を示し、困難な低リソース環境下で97~98%の精度を達成する。オープンソースパッケージは https://pypi.org/project/jaxcld/ で入手可能である。
離散拡散モデルは、多くの場合クリーンデータ予測によって訓練されるが、その予測を逆過程の定義にどう利用するかには複数の方法がある。Masked Diffusion Models (MDM) ではこれらの選択肢はほぼ一致するが、Uniform Diffusion Models (UDM) ではそうではない。我々は、UDMにおける標準的なプラグインブリッジパラメータ化が、ノイズ除去事後分布ではなく、各クリーントークンを自身のノイズを含む観測を用いずに予測する一個抜き事後分布によって最適化されることを示す。これはプラグインELBOと通常の交差エントロピーノイズ除去目的関数との間に不一致があることを明らかにする。我々は一個抜き目的を特徴づけ、ノイズ除去器、一個抜き事後分布、スコア間の正確な変換を導出する。これらの変換により、パラメータ化と訓練目的関数を分離することが可能になる。また、我々の結果は、追加の訓練を必要とせずに、情報に基づいた予測子・修正子サンプラーと、一個抜き予測子に基づく改良された温度サンプリングによる推論の改善をもたらす。 さらに、UDMの同時分布を保持しつつ、それをマスク拡散に類似したサンプリング操作(より単純なノイズ除去事後分布、継承的なマスク解除、自然な再マスク機構を備える)に分解する、一様拡散の吸収状態による再定式化を導入する。言語モデリングにおいて、一個抜きパラメータ化は一貫してUDMの生成を改善し、吸収状態による構成はマスク拡散と同等かそれを上回る性能を示す。これらの結果は、マスク拡散と一様拡散の間の経験的なギャップが周辺分布の選択自体よりも、パラメータ化とサンプリング設計によって引き起こされることを示唆している。コードとモデルは https://github.com/samsongourevitch/rev_udm で入手可能である。
映画品質の動物表現を生成するには、筋肉や毛皮のダイナミクスを精緻にモデリングする必要があり、従来の制作パイプラインでは多大な労力と計算コストを要してきました。生成拡散モデルは多様な芸術的ワークフローにおいて有望性を示していますが、高忠実度な動物シミュレーションへの活用は未だ十分に探求されていません。本稿では、従来のリファインメントを介さずに、粗いメッシュからマルチモーダルガイダンスに基づいて高忠実度な動物動画を合成する生成型ダイナミクス解法MoZooを提案します。我々は、ロールアウェアRoPE(RAR-RoPE)を導入し、ロールベースのインデックス再マッピングにより動作の位置合わせを同期させつつ、固定された時間オフセットによって参照情報を分離します。これを補完する非対称分離注意機構は、潜在系列を分割して一方向の情報流を強制することで、特徴間の干渉を防ぎ計算効率を向上させます。高品質な学習データの不足に対処するため、レンダリングエンジンと逆マッピング手法を活用し、ペア化された大規模系列データセットを構築する合成-to-実パイプラインMoZoo-Dataを導入します。さらに、120組のメッシュ・動画ペアからなる包括的ベンチマークMoZooBenchを構築しました。実験結果は、MoZooが多様な動物の骨格およびレイアウトにわたって高忠実度な毛皮シミュレーションを実現し、優れた時間的および構造的一貫性を維持することを示しています。
大規模言語モデル(LLM)は、さまざまな感受性の高い文脈において体系的な政治的バイアスを示す。我々は、LLMが政治的に対立する立場の話題を非対称に扱うことを発見した。この現象を「隠れた政治的バイアス」と呼び、それが作用する7つのカテゴリーの手法を特定する。また、隠れたバイアスに対する2つの指標を提案する。「感情一貫性」は、対となる政治的プロンプト間における修辞やフレーミングの対称性を測定し、「有用性一貫性」は、応答の深さや関与度の対称性を測定する。これら両方のタイプの隠れたバイアスを低減するために、我々は「政治的整合性トレーニング(PCT)」を導入する。これは、2つの相補的なパラダイム、「感情一貫性トレーニング」と「有用性一貫性トレーニング」から成る強化学習訓練手法である。PCTは全体的な有用性を維持しつつ、隠れた政治的バイアスを大幅に低減し、未見のベンチマークに対しても汎化することを示す。本研究成果は https://political-manipulation.ai で公開している。
近年、Vision-Language Models(VLM)の進歩により多くのタスクで優れた性能が達成されているが、時系列データの異常パターン検出に大規模言語モデルやマルチモーダルモデルを適用した場合、既存研究では不十分な性能が報告されている。公開されている異常検知ベンチマークは通常、区間アノテーションを提供するものの、自然言語による説明は提供しておらず、VLMをファインチューニングして根拠のある解釈可能な判断を生成することが困難である。このギャップを埋めるために、我々はVisAnomBenchを構築した。これは公開時系列データセットから構築され、複数の大規模VLMからタスク固有の細粒度な報酬を用いて選択された高品質な異常説明で拡張された厳選ベンチマークである。このベンチマークでのファインチューニングを通じて、時系列異常検知のためのパラメータ効率的なVLMであるVisAnomReasonerを開発した。VisAnomBenchでの実験結果は、VisAnomReasonerがより正確な異常位置特定を達成し、すべてのベースラインを一貫して上回り、精度とF1でそれぞれ少なくとも21.23パーセントポイントと23.87パーセントポイントの向上を示している。TSB-AD-Uベンチマークでの追加実験は、強力なクロスベンチマーク汎化能力を示し、VisAnomReasonerは精度とF1をそれぞれ9.57パーセントポイントと13.39パーセントポイント向上させた。
本研究では、ビデオシーケンスから空間的に密で時間的に一貫した幾何情報を復元するフィードフォワード基盤モデルViGeoを提案する。ViGeoはタスク固有のアーキテクチャ変更を施さないプレーンなトランスフォーマーアーキテクチャ上に構築されており、統合モデル内でストリーミング、全シーケンス、長尺動画の推論をサポートする。主要な設計は動的チャンキングアテンションであり、訓練中に双方向および因果的時間的文脈の両方にモデルを触れさせ、テスト時には再学習なしでアテンションパターンを適応可能にする。教師信号の品質を向上させるため、さらに補完ベースのデータ精緻化フレームワークを導入する。このフレームワークは、疎でノイズの多いアノテーションを条件とし、ビデオ/多視点コンテキストを活用して、密で時間的に一貫し、幾何学的に信頼性の高い訓練ターゲットを生成するビデオ深度補完教師モデルを訓練する。深度マップやポイントマップに加えて、ViGeoは同一フレームワーク内で表面法線も予測する。公開データセットのみで訓練されたViGeoは、オンライン、オフライン、長尺動画の深度推定、表面法線推定、ビデオポイントマップ推定において最先端の性能を達成する。
電話操作エージェントの中心的なボトルネックは、現実のモバイル操作をカバーする制御可能かつ再現可能な環境を大規模に構築することが難しい点にある。既存のモバイルエージェントベンチマークは評価において重要な進歩を遂げてきたものの、それ自体では多数の新しい電話操作環境をスケーラブルに構築する方法を提供していない。本稿では、実在のGUI軌跡とスクリーンショットを制御可能な電話操作環境、実行可能なタスク、自動検証器、訓練用ロールアウトに変換する再利用可能なパイプラインであるPhoneWorldを提案する。PhoneWorldは、モバイルベンチマークを一つずつ手作業で構築する代わりに、実軌跡を用いて、どの画面が重要か、画面間の接続、どのインタラクションが環境状態を変更する必要があるか、どのユーザー目標が自動検証を許容するかを復元する。これらの信号から、読み取り専用のアプリコンテンツと可変状態に基づく実行可能な模擬Androidアプリを構築し、同一の環境から実行可能なタスク、ルールベースの検証器、訓練用ロールアウトを導出する。 現在の実装では、PhoneWorldは16ドメインにわたる34のアプリをカバーし、検索、ブラウジング、ショッピング、予約、メディア、ソーシャルインタラクションなどの一般的な消費者向けモバイル行動を網羅している。固定の訓練予算の下で、AndroidWorldベースのベースラインにおける補助的なAndroidWorldコーパスからの10Kステップを、PhoneWorldによる広範な監視に置き換えることで、4つの評価ベンチマークすべてが同時に改善される。具体的には、HYMobileBenchが17.7ポイント、AndroidControlが6.0ポイント、AndroidWorldが14.7ポイント、PhoneWorldが52.5ポイント向上する。さらに、二つのスケーリングに関する追加の疑問を調査する。PhoneWorldによる監視量を増やすとPhoneWorldのパフォーマンスが大幅に向上し、固定のPhoneWorld予算の下ではアプリカバレッジを拡大することでさらに大きな利得が得られる。全体として、PhoneWorldはモバイルベンチマークを一つずつ構築することから、電話操作環境自体の供給をスケーリングすることへと焦点を移す。
スマートフォンを介した詐欺はますます一般的になっており、典型的には複数段階・複数アプリにわたるプロセスとして現れ、意図が徐々に明らかになる。したがって、効果的な介入には、意図が明確になる前に詐欺を予測することが求められる。これは本質的に困難な課題であり、時間的に分散した証拠を持つ部分的な行動軌跡に基づいて判断を下さなければならないからである。本論文では、ストリーミングアプリ使用軌跡から早期に詐欺を予測するための初のエージェント的フレームワークであるORACLE(Online Reasoning for Anticipating Cross-temporal Latent thrEats)を提案する。この設定を支援するため、12種類の詐欺タイプをカバーし、長期期間(平均15日)に及び、多様なアプリケーション(95アプリ)を含み、正常行動と詐欺行動が混在する、実世界の長期的ベンチマークをストリーミングアプリ使用軌跡として収集した。断片的な証拠に対処するため、時間の経過とともにエンティティ中心の相互作用を適応的に集約する自己進化型コンテキストマネージャを導入し、部分的な観測から時横断的な証拠をより効果的に再構築できるようにした。また、潜在的な初期段階のシグナルに対する感度を高めるため、オン方策自己蒸留スキームを提案する。このスキームでは、スキルごとに要約された反詐欺考察と手がかりを条件とする教師モデルが、そうした考察を利用できない生徒モデルを指導する。これにより、証拠に基づく知識を蒸留し、部分的な軌跡から新たな詐欺パターンを認識する能力を向上させる。実験により、ORACLEが早期詐欺予測を一貫して改善し、現実的なストリーミングシナリオにおいて、タイムリーな警告を発すると同時に誤警告を減少させることが示された。