翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)エージェントにおけるメモリは、単純な検索拡張機構から、永続的な情報保存、検索、更新、統合、そしてエージェント実行中の動的なライフサイクル管理を支援するデータ管理システムへと急速に進化してきた。しかし、この進化にもかかわらず、既存の評価では依然としてエンドツーエンドのタスク成功指標(例:F1、BLEU)を通じて主にエージェントメモリをベンチマークしており、基盤となるシステムを一枚岩のブラックボックスとして扱っている。その結果、運用コスト、メモリモジュール間のアーキテクチャ上のトレードオフ、動的な知識更新下でのロバスト性といった重要なシステムレベルの課題は、十分に調査されていない。本稿では、データ管理の観点からエージェントメモリの体系的な実験研究を提示する。我々は、エージェントメモリを4つの中核モジュール(メモリ表現と保存、抽出、検索とルーティング、メンテナンス)に分解する分析フレームワークを提案する。このフレームワークのもとで、11のデータセットにわたる5つのベンチマークワークロードにおいて、12の代表的なメモリシステムと2つの参照ベースラインを評価する。広範なエンドツーエンド評価の結果、単一のアーキテクチャがすべてのシナリオで支配的になるわけではなく、その有効性はメモリ構造がワークロードのボトルネックとどれだけ整合するかに大きく依存することが示された。さらに、詳細なアブレーション研究を通じて、表現の忠実性、検索精度、更新の正確性、長期的安定性に対する各モジュールの個別の影響を定量化する。最後に、現実的なワークロード下でのコストパフォーマンスのトレードオフを明らかにし、局所的なメンテナンスが全体的な再編成よりもコスト効率が高いことを示す。これらの発見に基づき、真にエージェントネイティブなメモリシステムを構築するための有望な方向性を特定する。コードは https://github.com/OpenDataBox/MemoryData で公開されている。
オープンドメインの主題駆動型テキストから動画への生成(S2V)は、学界と産業界で大きな関心を集めている。オープンドメインS2Vは主に2つのシナリオを含む。ドメイン内(in-domain)は参照主題の特徴を可能な限り保持する必要があり、クロスドメイン(cross-domain)は主題の本質的な特徴を保持しつつ、主題に関係のない属性をテキストプロンプトに応じて柔軟に変化させる。既存手法は主にドメイン内シナリオでの主題忠実度を最大化することに焦点を当てており、新しいスタイル、意味的な組み合わせ、ドメイン属性などのクロスドメインシナリオにおける編集可能性と適応性を制限している。本研究では、理想的なS2V手法は異なるドメイン間を柔軟に移動し、ドメイン内とクロスドメインの両方のシナリオで強力な性能を達成すべきであると提案する。この目的のために、オープンドメインの動画パーソナライゼーションにおいて高い忠実度と生成柔軟性を実現するDomainShuttleを提案する。具体的には、動画と参照特徴を分離し、参照画像のドメイン固有モデリングのためのドメイン認識型AdaLNを導入するDomain-MoTを紹介する。次に、参照画像トークンと動画トークンを別々のRoPE空間に配置して精密な主題レベルの空間モデリングを可能にするVideo-Reference DualRoPEスキームと、無関係な特徴の影響を受けない本質的な主題特徴を抽出することを目的とするCross-Pair Consistent Lossを導入する。広範な実験により、DomainShuttleが既存手法と比較して顕著な性能向上を達成し、多様なオープンドメイン応用シナリオにおいて高い主題忠実度と生成柔軟性を示すことが実証された。
我々は、リアルタイムかつ低遅延な全二重音声・映像対話を目的として、ゼロから設計されたネイティブストリーミング対応のエンドツーエンド対話基盤モデル、Wan-Streamerを提案する。Wan-Streamerは、単一のTransformer内で言語、音声、映像を入力と出力の両方としてシームレスにモデル化し、シーケンスは、インクリメンタルなストリーミングのためにブロック因果注意によって調整された、視覚、音声、テキストの入力トークンと、視覚、音声、テキストの出力トークンが交互に配置された形で表現される。個別のVAD、ASR、言語、TTS、音声駆動アニメーション、または動画生成モジュールに依存するカスケード型対話システムとは異なり、Wan-Streamerは外部の言語、音声、アバター、動画生成モジュールを必要としない。知覚、推論、生成、応答タイミング、ターン管理、モーダル間同期は、単一の統合モデル内で共同に学習され、パイプラインのレイテンシと誤差の蓄積を低減する。自然な音声・映像応答性を実現するために、我々はストリーマビリティを中心にスタック全体を再設計し、因果エンコーダ、因果デコーダ、ブロック因果注意、低遅延マルチモーダルトークンスケジューリングを含めることで、25fpsにおいて160ミリ秒という短いストリーミング単位を可能にした。Wan-Streamerは、モデル側の応答レイテンシとして約200ミリ秒、350ミリ秒の双方向ネットワークレイテンシと組み合わせた場合の総相互作用レイテンシとして約550ミリ秒を達成し、サブ秒の全二重音声・映像通信を実現する。これらの結果は、Wan-Streamerを、低遅延ストリーミング対話のための統合的かつエンドツーエンドのマルチモーダル対話基盤モデルとして位置づけるものである。
実世界の写真撮影では、フレーミングと被写体のポーズの両方について、撮影時にガイダンスを提供する必要がある。しかし既存の美学的クロップベンチマークは主に事後的なクロップ予測を評価するものであり、被写体側の推奨を無視しており、マルチモーダル大規模言語モデル(MLLM)の撮影時ガイダンス能力は十分に探求されていない。このギャップを解消するために、我々はCaptureGuide-Benchを提案する。これは、撮影者側の構図決定・改善と、被写体側のシーン条件付きポーズ推薦という2つの相補的なタスクからなるベンチマークである。評価の結果、汎用MLLMは構図決定はできるが精密な改善の位置特定ができず、一方、専門的な美学的クロップモデルはクロップの位置特定は効果的に行えるが改善に限定されており、いずれも実用的なポーズガイダンスを提供できないことが明らかになった。モデル開発を支援するため、我々はさらに、テキストによる根拠と構造化された視覚的注釈を含む13万サンプルからなるCaptureGuide-Datasetを構築し、教師あり学習と強化学習によるファインチューニングを施した統合MLLMであるShutterMuseを開発した。CaptureGuide-Benchでの実験により、ShutterMuseは評価ベースラインの中で撮影者側の全体的な性能が最も優れ、被写体側のポーズ推薦でも競争力のある性能をはるかに低い推論コストで達成し、画像撮影時のインタラクティブアシスタントとしてのMLLMの可能性を示している。
現代の大規模言語モデルは、主に自己回帰因子分解と因果的注意を用いて訓練されている。本稿では、完全な双方向注意を用いてゼロから訓練された8Bマスク拡散言語モデルiLLaDAを提案する。iLLaDAは、事前学習および教師ありファインチューニング(SFT)を通じてマスク拡散目的関数を維持し、事前学習を12Tトークンに拡大し、25Bトークンの指示コーパスで12エポックのファインチューニングを実施する。さらに、効率化のための可変長生成を導入し、多肢選択評価のための信頼度ベースのスコアリングを提案する。LLaDAと比較して、iLLaDAは一般、数学、コードの各ベンチマークで広く改善を示した。例えば、iLLaDA-BaseはBBHで21.6ポイント、ARC-Challengeで14.9ポイント向上し、iLLaDA-InstructはMATHで14.5ポイント、HumanEvalで16.5ポイント向上した。非自己回帰的な訓練にもかかわらず、iLLaDAはいくつかのベンチマークでQwen2.5 7Bと競争力のある性能を維持している。これらの結果は、ゼロからの完全双方向拡散訓練が強力な言語モデルへの競争力のある経路であることを示している。モデルの重みとコード: https://github.com/ML-GSAI/LLaDA。
大規模言語モデル(LLM)はテキストからコードへの合成を大幅に進展させたが、現実の多くのプログラミングタスクでは、スクリーンショット、チャート、ベクター図、動画、対話状態といった視覚的アーティファクトを通じて意図が指定される。これらのタスクでは、正しさが構文だけでなく、レイアウト、データ意味論、インタラクション動作、そして実行後に適用されるドメイン固有の制約にも依存するため、モデルは視覚的知覚を実行可能プログラムに結びつける必要がある。本調査では、視覚的に接地された入力と出力の下でコードを生成、編集、洗練、または推論するシステムを対象としたマルチモーダルコードインテリジェンスを検討する。まず、各タスクにおいてコードが果たす役割に基づいてこの分野を定式化し、コードを、レンダリングされたアーティファクト、編集可能な記号構造、科学的表現、中間的な推論トレース、または実行可能なポリシーやツールインターフェースとして区別する。次に、ベンチマークと手法を、グラフィカルユーザーインターフェース、科学可視化、構造化グラフィックス、そしてフロンティアタスクとフレームワークの4つの領域に整理する。この分類法は、成熟したアーティファクト生成問題を、新興のエージェント的・統合的設定に結びつけ、異なるタスクが正しさの証拠をどのように扱うかを比較することを可能にする。今後の展望として、将来の研究は4つの検証中心の方向性から恩恵を受ける可能性があると主張する。マルチシグナル検証は正しさの相補的な証拠を組み合わせることができ、マルチステート検証は実行軌跡全体にわたる振る舞いをテストでき、クロスタスク転送テストは再利用可能な視覚コードスキルを探ることができ、検証可能なエージェントトレースはエージェントの行動が視覚的証拠に基づいているかどうかを明らかにする。これらの方向性は、この分野を単一出力の模倣から、証拠に基づいた実行可能システムへと移行させる可能性がある。進行中のプロジェクトとリソースはhttps://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code{GitHub}で入手可能である。
単眼参照動画から目標カメラ軌道に沿った新規視点動画を合成するには、参照動画に対する幾何的一貫性と動きの忠実性の両方が必要である。明示的な3D表現に基づく既存手法は、既製の再構築モジュールの精度に制限されており、単眼動画内の動的物体に対して不正確な形状を生成することが多い。対照的に、カメラ条件付けのみの手法は高い視覚品質を達成できるが、幾何的および動きの一貫性を維持することにしばしば苦慮する。本研究では、MVTrack4Gen(Multi-View point Tracking for Novel-View Generation)を導入する。これは、カメラ条件付けのみの新規視点動画拡散モデルに対して、追加の幾何的および動きの監視信号として多視点点追跡を活用する動作認識型訓練フレームワークである。我々の主要な発見は、特定のアテンション層が強い対応関係の手がかりを符号化しており、クエリ特徴量が時間的および視点間で幾何的に対応する位置のキー特徴量にアテンションを向けること、そしてこれらの対応関係のずれが動きの不整合を引き起こすことである。この観察に基づき、これらの特徴量を補助的な多視点追跡ヘッドにルーティングし、点追跡目的関数を用いて拡散モデルを共同訓練する。これらの動作認識対応関係を明示的に強化することにより、MVTrack4Genは既存モデルを改善し、参照視点の動きにより忠実に追随し、視点間の幾何的一貫性を維持する。多様なベンチマークにおいて、本手法は最先端の幾何的一貫性と競争力のあるカメラ精度を達成する。
細粒度の視覚的推論では、マルチモーダル大規模言語モデル(MLLM)がタスクに関連する視覚的証拠を特定し、その推論を画像の局所領域に基づかせることが求められる。既存のエージェント的手法は、通常、検証可能な報酬を用いた強化学習や、大規模な注釈付き推論トレースに対する教師ありファインチューニングに依存しており、コストのかかる探索、手動設計の検証ルール、またはテキストによる監督への強い依存を招いている。このような外部の回答ラベルを回避する自然な方法は、生徒自身がサンプリングした軌跡から学習することであり、これはオン方策蒸留(OPD)へとつながる。OPDが視覚的推論に何を提供でき、何を提供できないかを理解するために、我々はこれをネガティブフリーなストップグラディエントアライメントとして再考する。この観点から、OPDは効果的なトークンレベルの修正を提供するものの、その上限は軌跡レベルの識別が欠如していることによって制約されることが示される。これらの観察に動機づけられ、我々はV-Zeroを提案する。これは対比的証拠ゲーティングを用いた視覚的推論のための回答ラベル不要フレームワークである。V-Zeroは注釈付きテキスト回答ラベルを使用せず、代わりに訓練中に質問に関連する領域クロップとネガティブな視覚ビューをペアにして、生徒がサンプリングした軌跡を評価し、密なトークンレベルの蒸留をゲーティングする。複数の視覚的推論ベンチマークでの実験により、V-Zeroが強力な汎化性能を維持しながら、細粒度の視覚的推論を一貫して改善することが示される。注目すべきことに、V-Zeroは従来の教師ありファインチューニング手法よりも5倍以上速く、強化学習ベースラインよりも10倍以上速い。コードとデータセットは https://github.com/eVI-group-SCU/V-Zero で公開予定である。
一貫性のあるマルチショット映像を生成するためには、構造化されたショット間メモリが必要となる。カットを跨いでも、被写体の外観、シーンのコンテキスト、話者の同一性が維持されなければならない。既存の手法は、固定長シーケンスでエンドツーエンドに学習するためスケーラビリティに欠けるもの、線形に増加するメモリバンクを用いてショットごとに生成するもの、あるいはマルチショット対応のバックボーンを持たずにLLMプランナーの下で事前学習済み生成器を統括するものに大別される。本稿では、UnityShotsを提案する。これは、LTX-2.3を基盤とし、注釈付きの映画およびミュージックビデオのショットで学習された、メモリ駆動型のマルチショット音声・動画生成システムである。映像ストリームは2つの固定サイズスロット、すなわち開始ショットに固定された長期記憶スロットと、直前の末尾を保持する短期記憶スロットを維持し、視覚的なカット確率とビートトラッカー信号を融合する境界条件付きゲートによって、各カットでこれらが更新される。音声ストリームは、スライディング音声バンクを用いずに声の音色を保持するため、各ショットに参照話者トークンを注入する。AdaLNを通じて学習された離散カットタイプ事前分布は、推論時にトランジションの強度を制御するノブとして機能する。また、6つの民族地域と10以上の言語にわたる200の多文化的マルチショットシーケンスからなるベンチマークを公開する。これには、ショットごとの参照同一性、参照音声、および境界ごとのトランジションラベルが含まれる。I2V、T2V、R2Vの各条件付けモードで評価した結果、UnityShotsはすべてのショット間一貫性指標においてオープンソースベースラインを凌駕し、マルチショット軸において最も強力なクローズドソースシステムに匹敵する性能を示した。
自己回帰的ビデオ拡散と因果拡散トランスフォーマーの組み合わせは、リアルタイムストリーミングビデオ生成やアクション条件付きインタラクティブワールドモデルの主要なパラダイムとして確立されつつある。本研究では、高度な拡散蒸留フレームワークであるrCMを自己回帰的ビデオ拡散に拡張する。rCMの核となる哲学は、拡散蒸留における前方発散と後方発散の相補性にあり、それぞれ整合性モデル(CM)と分布整合蒸留(DMD)によって表現される。この哲学は自己回帰設定にも自然に適用され、教師強制(TF)がオフラインかつ前方発散に基づく因果的訓練パラダイムを提供する一方、自己強制(SF)はオン方策かつ後方発散に基づく洗練手法に対応する。 本研究の貢献は以下の通りである。(1) 大規模実験を通じて、教師強制CMが自己強制DMDに対する最適な初期化戦略としての補完性を示す。(2) 我々独自のカスタムマスクFlashAttention-2 JVPカーネルにより、自己回帰的ビデオ拡散のための教師強制ベース連続時間CM(例:sCM/MeanFlow)を初めて実装し、離散時間CM(dCM)と比較して10倍の収束高速化を達成する。(3) 拡散蒸留と因果的訓練のための先導的かつ統一されスケーラブルなアルゴリズム・インフラストラクチャのオープンレシピ「Causal-rCM」を導入する。(4) 訓練に合成データのみを用い、フレーム単位およびチャンク単位の両方の設定で最先端のストリーミングビデオ生成性能を達成する。 特筆すべき点として、蒸留された2ステップ因果Wan2.1-1.3Bモデルは、1回または2回のサンプリングステップのみでVBench-T2Vスコア84.63を達成する。さらに、Causal-rCMを、物理AI向けの高度な全方位ワールド基盤モデルであり、アクション条件付き生成機能を備えるCosmos 3に適用し、インタラクティブワールドモデルを実現する。
統一型マルチモーダル大規模言語モデル(MLLM)は、高品質なテキストからの画像生成を実現しているが、オブジェクトの個数、空間関係、属性の結合、大まかなレイアウトなどを保持する構造認識型のプロンプト追従には依然として課題がある。我々は、この制限の一因が、単一の条件付けストリーム内で構造計画と外観レンダリングが絡み合っていることにあると考える。この問題に対処するため、我々は暗黙的視覚的思考連鎖(Implicit Visual Chain-of-Thought, IV-CoT)を提案する。これは、クエリ条件付き画像生成のための潜在的な視覚的推論フレームワークである。IV-CoTは、視覚的条件付けクエリを構造から意味へのカスケードに分解し、構造クエリがまず潜在的な視覚計画を形成し、その後、意味クエリがその計画に基づいて外観をレンダリングする。構造クエリを導くために、我々は訓練時のみのスケッチ教師信号を導入する。これにより、推論時にスケッチ抽出や中間デコードを必要とせずに、スケッチから構造を捉えることが促進される。IV-CoTは単一の順伝搬で暗黙的なCoT推論を実行し、GenEvalおよびT2I-CompBenchにおいて優れた結果を示す。可視化と分析により、学習された構造クエリと意味クエリが構造認識型生成において相補的な役割を果たしていることが実証される。
我々は、シミュレーションベンチマーク「EBench」を提案する。これは、単一の成功率スカラーを超えて、汎用移動操作ポリシーを診断するものである。EBenchは、5つの能力次元と4つの汎化次元に沿って注釈付けられた、多様で挑戦的な26の操作タスクから構成される。我々は、π_0、π_{0.5}、XVLA、InternVLA-A1を含む最先端の汎用操作モデルを評価し、成功率が近いモデルでも、能力プロファイルが著しく異なることを明らかにした。π_{0.5}は最高のテスト成功率と最良の訓練-テスト保持率を達成する一方、InternVLA-A1は移動操作で優位を示すが器用なタスクでは性能が低下し、XVLAは他のポリシーと比較して非連続的な原子スキルセットに強みを示す。能力プロファイリングに加え、EBenchは4つの代表的な視点から汎化能力を分析し、異なる分布シフト要因の影響を特定する。結果は、全体的なスコアの背後にあるモデルの長所と短所を明らかにする。このベンチマークが、汎用操作モデルの反復的改善を導くための広範な診断シグナルを提供することを期待する。
『エージェンティックAIのヒッチハイカー・ガイド』は、自律型AIシステムを構築するための実践的なリファレンスである。本書は第一原理から本番環境へのデプロイに至るまでのフルスタックを、中心的なテーゼ、すなわち優れたエージェンティックシステムを構築するにはパイプラインの個別の層だけでなくすべての層を理解することが必要である、という視点に基づいて構成されている。序盤ではLLM基盤――トランスフォーマーアーキテクチャ、GPUシステム、学習とファインチューニング(SFT、LoRA、MoE)、モデル圧縮、推論最適化――を、主たる焦点ではなく必須の基礎として扱う。続いてアライメントと推論のレイヤーを展開する。すなわち、人間からのフィードバックによる強化学習(RLHF)、PPO、DPOおよびその派生、GRPO、報酬モデリング、そしてチェーン・オブ・ソートやテスト時スケーリングを含む大規模推論モデルのための強化学習である。後半はエージェンティックAIそのものに充てられる。トピックとしては、エージェンティック学習と軌跡ベースのRL、検索拡張生成(RAGおよびAgentic RAG)、メモリシステム(インコンテキスト、外部、エピソディック、セマンティック)、エージェントハーネスの設計とコンテキスト管理、エージェント設計パターンの分類が含まれる。エージェント間の協調については詳細に扱われる。モデルコンテキストプロトコル(MCP)、エージェントのスキルとツール使用、エージェント間(A2A)通信プロトコル、そして集中型、分散型、階層型トポロジを網羅するマルチエージェントアーキテクチャである。本書は、エージェント開発フレームワーク、エージェンティックUI設計、エージェンティックタスクの評価手法、そして本番運用で締めくくられる。各章では、厳密な理論的基盤と実装ガイダンス、コード例、一次文献への参照を組み合わせて提供する。
思考連鎖(CoT)は、段階的な思考を引き出すことで大規模言語モデル(LLM)の推論能力を向上させる標準的な手法となっているが、マルチモーダルタスクにおけるその有効性は依然として不明である。本論文では、次の重要な問いを体系的に調査することを目的とする:マルチモーダル思考連鎖推論は何ができるのか、そしてどこでなぜ不十分なのか?このために、14の非推論モデルと8の推論モデルを用いて、知覚と推論のカテゴリにわたる12のマルチモーダルタスクを評価する。分析により、以下の重要な知見が明らかになった:(1)CoTはフリーランチではなく、各タスクの具体的な要件に応じて選択的に使用すべきである。知覚タスクにおいては、CoTは視覚的グラウンディングや物体計数における性能低下など、望ましくない副作用を引き起こす可能性がある。対照的に、数学的、科学的、マルチイメージ推論を含む推論タスクには効果的である。(2)元のモデルと比較して、既存のオープンソースのマルチモーダル推論モデルは、数学的推論に過度に重点を置きその他の能力を犠牲にしているためと思われるが、全体的な改善はわずかであることが多い。(3)視覚的推論は現在のマルチモーダルCoTにとって主要なボトルネックであり、モデルは「軽視・重考(Look Light, Think Heavy)」パターンを示し、推論中に言語的反射は増減する一方、視覚的反射は一貫して減少する。これらの知見は、マルチモーダルCoTは言語的反射を比較的うまく処理できるものの、推論プロセス全体を通じて深い視覚的内省を維持する能力が欠如していることを示唆している。
本稿では、AIエージェントがデータサイエンティストとして振る舞い、高品質な学習用および評価用データを構築するための汎用手法であるAutodataを紹介する。このデータサイエンティストエージェントを学習(メタ最適化)することで、さらに強力なデータを生成する方法を示す。全体の定式化と、具体的な実装であるエージェンティック・セルフインストラクト(Agentic Self-Instruct)について述べる。計算機科学の研究課題、法的推論課題、数学的対象を用いた推論課題において実験を行い、従来の合成データセット作成手法と比較して改善された結果を得た。さらに、データサイエンティストエージェント自体をメタ最適化することで、より大きな性能向上が達成される。エージェンティックなデータ作成は、推論計算の増加をより高品質なモデル学習に変換する方法を提供する。全体として、この方向性はAIデータの構築方法を変革する可能性を秘めていると考える。
视频虚拟试穿(VVT)技术在动态主体上合成逼真服装覆盖方面已取得显著进展,然而现有范式在根本上仍受限于对源相机轨迹的被动依赖,无法满足全方位视角探索所需的交互自由度。为突破这一局限,我们定义了一个开创性的研究前沿:相机可控视频虚拟试穿(CaM-VVT)。与传统VVT不同,CaM-VVT不仅需要与视角无关的纹理幻化,还要求在任意无约束相机运动下,非刚性人体动态与背景上下文之间实现严格的结构同步。为应对这些挑战,我们提出了TryOnCrafter——首个专为CaM-VVT任务设计的统一DiT框架。区别于隐式像素空间操作,我们引入了一种可渲染的4D试穿代理,该代理通过将高保真2D试穿先验蒸馏至基于3DGS的穿衣化身中,进而借助SMPL-X序列驱动并经过度量对齐将其嵌入重建的背景点云,从而显式地将人体主体与环境解耦。该代理以卓越的纹理密度和运动完整性建立了稳健的结构基础。我们的代理锚定视频DiT以此稳健结构基础作为主要几何锚点,确保合成出的逼真视频严格受控于预设轨迹与物理合理的形变。得益于4D代理固有的可编辑性,TryOnCrafter支持多种下游应用,包括人体重定位、“子弹时间”效果以及360度轨道视角。
WordArt(アートテキスト)は高度にカスタマイズされたフォント、テクスチャ、レイアウトを特徴とし、WordArt指向のシーンテキスト認識(WATER)は一般的なシーンテキスト認識(STR)よりもはるかに困難である。既存のSTRデータセットと手法は、通常、規則的なシーンテキストと固定テンプレート入力を想定して構築されており、WATERへのスケーリングは困難である。そこで本研究では、データ面とモデル面の両方からこのタスクを前進させることを目指す。データ面では、既存のアートテキストデータと比較して規模が数百倍に向上した200万件の合成データセットWATER-Sを構築する。WATER-Sは、互いに補完し合う2つのサブセットから構成される。1つは、改良されたレンダリングパイプライン(SynthWordArt)によって生成され、高精度で制御可能な合成WordArtデータを提供する。もう1つは、プロンプトマイニング用のQwen3-VLと画像合成用のZ-Imageを組み合わせて生成され、現実的で多様なデータのカバレッジを向上させる。モデル面では、WATERecを提案する。任意形状の入力をサポートするビジュアルエンコーダと、複雑なレイアウトをモデル化する自己回帰デコーダを採用し、WordArtにおける固定テンプレートSTRのボトルネックを構造的に打破する。実験では、このアーキテクチャが従来のSTR手法を凌駕し、WordArtなどの不規則テキストにおいて最先端の性能を達成することを示す。既存の実STRデータから注意深く再編成したWATER-Rと合わせて、新しい合成データとモデル設計による強力なベースラインは、WordArt-Benchにおいて90.40%の精度を達成し、汎用およびOCR特化の視覚言語モデルを大きく上回る。コードとデータはhttps://github.com/YesianRohn/WATER で公開されている。
オンポリシー蒸留(OPD)は、学生モデルを自身が生成した出力で学習させることでLLMの推論を改善するが、標準的なOPDはすべての学生生成出力(SGO)をその情報量に関わらず等しく扱う。我々は、制御されたフィルタリング実験において一貫した非対称性を観測する:OPDとオンポリシー自己蒸留(OPSD)の両方において、誤ったSGOのみで学習した方が正しいSGOのみで学習するよりも優れている。さらなる分析から、正しいSGOのみで学習したモデルはより短い推論トレースを生成し、振り返り行動が弱まる傾向がある一方、誤ったSGOはモデルの能力境界付近での探索的推論をよりよく保持することが示唆される。この信号を活用するために、完全な回答を含むロールアウトを必要とせずに、我々はReNIOを導入する。ReNIOはLLMオンポリシー蒸留における負軌道重要度の再重み付け(Reweights Negative trajectory Importance for LLM On-policy distillation)を行う。学生-教師確率比を用いることで、ReNIOは誤った推論トレースにつながる重要トークンを特定し、それらの情報を正規化されたサンプル重みに集約する。これにより、最終回答の正しさを観測することなく、可能性の高い負の軌道に本質的により大きな重みを割り当てる。ReNIOはプレフィックス条件付きトークン確率のみを使用するため、フルロールアウト強化学習に対するOPDのプレフィックス学習の利点を維持する。数学的推論とコード生成タスクの両方において、ReNIOはOPDとOPSDの両方を改善し、数学的推論ベンチマークにおいてQwen3-1.7Bで最大8.90%、R1-Distill-Qwen-7Bで最大10.00%の代表的な相対改善率を示す。コードリポジトリ: https://github.com/BDML-lab/ReNIO。
実世界のタスクを解決するためには外部知識の検索が不可欠であるが、クエリと関連知識の関係が表面的な意味的・語彙的一致を超えた暗黙的で複雑な推論(例えば同一の定理に依存する数学問題や深い推論を要するコーディング)を含む場合、依然として困難が伴う。既存のアプローチは主にクエリ側の推論(例:クエリ書き換え)に依存しており、これによりオンラインでの大幅なレイテンシが発生し、知識コーパス自体に対する推論(すなわちインデックス側の推論)を実行する機会が十分に活用されていない。本稿では、検索インデックスの推論を強化学習問題として定式化するエージェントベースのインデックス作成フレームワークであるRL-Indexを提案する。RL-Indexはクエリ時点での推論を行う代わりに、文書にLLMが生成した根拠(rationales)を追加し、それによって潜在的なクエリと知識の関係を明示的にエンコードすることで、推論をインデックス作成段階に移行する。これらの根拠の品質を最適化するために、Group Relative Policy Optimization(GRPO)を採用し、検索類似度を検証可能な報酬信号として利用することで、検索効果のためのインデックス作成決定を直接最適化する。BRIGHTベンチマークにおける広範な実験により、RL-Indexは検索性能と下流の質問応答性能の両方を一貫して向上させると同時に、オンライン推論レイテンシを大幅に削減することを示す。さらに、学習された根拠の追加は多様な検索器や生成器にわたって汎化し、異なる検索システムに対してプラグアンドプレイのインデックス作成戦略としてのロバスト性を強調する。
「短く話せ。文法を捨てろ。トークンを節約しろ。」この原始的なスタイルは、推論コストを削減する方法として広く推奨されているが、実際に節約が成立するかどうかは、どのチャンネル(ユーザーのプロンプトかモデルの応答か)が圧縮されるかに依存する。本稿では、Cavewomanという二重チャンネル評価プロトコルを提案する。これは、各生成に対して、タスク精度、項目ごとの実現コスト、およびモデルの非制約参照に対する参照テキスト一致度を評価するものである。5つのデータセットにおいて、8つのモデルを5段階の圧縮レベルで評価し、両方のチャンネルを同一項目上で測定した。出力圧縮は、ほとんどのAPIモデルで実現コストを削減し(モデルごとに1.4~2.4倍、最良の場合で最大3倍)、公開価格帯のもとでは4つのオープンウェイトモデルすべてで削減効果があった。一方、入力圧縮は逆効果であり、完全な負け局面をもたらす。すなわち、コストを下げるどころかむしろ増加させ(5つのベンチマーク平均で約1.15倍、最悪のデータセットでは1.8倍、より強い圧縮では2.7倍)、これはモデルが精度の低下にもかかわらずより長い応答で補償するためである。同じ設定下では、表層テキストは非制約参照から乖離する。すなわち、非推論型モデルでは、全生成の約半数が正解であるにもかかわらず、その表層テキストはモデル自身の非制約ベースライン生成をもはや含意しない。この乖離は、長さを制御した再スコアリング、多重比較補正、および補完的な意味尺度による再現を経ても持続する。コードとデータは https://github.com/danielle34/cavewoman で入手可能である。
现有低比特KV缓存量化器通常将每个缓存的键视为平面向量。然而,在RoPE(旋转位置编码)下,键对未来注意力logit的贡献可分解为二维频率块上与位置相关的累加和。这使得键缓存量化成为一个分块比特分配问题:高能量的RoPE块对量化误差更敏感,应分配更多比特。我们提出Block-GTQ,一种基于TurboQuant-MSE(TQ-MSE)的、具备RoPE感知能力的键缓存量化比特分配器。对于每一层和每个KV头,Block-GTQ为每个RoPE块计算无标签能量分数,并通过边际增益贪心地分配整数比特宽度。在匹配的K/V比特预算下,Block-GTQ在十个模型的诊断面板上更好地保留了RoPE查询-键logit,在2比特和3比特每维度K-only量化下将每层MAE降低32-80%,并在全部367/367层比较中优于均匀TQ-MSE。这些保真度优势转化为更强的下游长上下文检索、理解和推理能力。在Llama-3.1-8B-Instruct的K2V2设置下,Block-GTQ将六任务NIAH平均值从70.6提升至97.4,LongBench-EN平均值从36.87提升至53.31。在DeepSeek-R1-Distill-Qwen-7B的AIME 2024/2025任务中,不使用fp16近期键缓冲区的情况下,Block-GTQ在K3V2设置下得分51.7/37.5,接近fp16的54.2/37.9,而均匀TQ-MSE则崩溃至0.0/0.0。我们进一步实现了打包缓存服务路径。在单块H800 GPU上,Qwen2.5-3B-Instruct的打包K3V3实现3.24倍KV缓存压缩且质量与fp16相当,在128K上下文下运行速度比fp16 FlashAttention2快1.34倍,峰值内存从56.31 GB降至19.85 GB,并且在fp16内存溢出的256K和512K上下文中仍可运行。代码已开源至https://github.com/JIA-Lab-research/blockgtq。
LLMエージェントが自律的にツールを選択する機会が増えるにつれ、異なる権限を持つツール間での選択が安全性に関わるようになる。しかし、従来のツール選択研究は安全性に依存しないメタデータの選好に焦点を当てており、権限に敏感な選択は十分に調査されていない。このギャップを埋めるために、我々は過剰権限ツール選択を研究する。これは、エージェントが十分な低権限の代替手段があるにもかかわらず、高権限ツールを選択またはエスカレーションする状況である。我々はToolPrivBenchを導入し、エージェントが十分な低権限の代替手段があるにもかかわらず高権限ツールを選択するかどうかを評価する。初期選択と、一時的なツール障害後のエスカレーションの両方を測定する。8つのドメインと5つの再発性リスクパターンにわたって、過剰権限ツール選択が主流のLLMエージェント間で一般的であり、一時的な障害によってさらに増幅されることを発見した。さらに、一般的な安全性調整は最小権限ツール選択に確実に転移しない一方、プロンプトレベルの制御は一時的な障害下では限定的な緩和効果しか提供しないことを発見した。そこで我々は、エージェントに十分な低権限ツールを優先し、必要な場合のみエスカレーションするよう教える、権限認識型のポストトレーニング防御を導入する。我々の緩和実験は、この防御が一般的な能力を維持しながら、不必要な高権限ツールの使用を大幅に削減することを示している。
ユーザーに代わって行動するAIエージェントは常に意思決定を行っており、ユーザーがエージェントを信頼するためには、その決定がユーザーの実際の意図と一致していなければならない。プライバシーはエージェントにとって重要なアライメント問題である。エージェントが行うすべてのメッセージ、投稿、ツール呼び出しは、何を誰と、どのような条件で共有することが適切かという文脈上の判断である。こうした判断は社会的期待や規範に依存するため、人間の判断は単にプライバシー違反をラベル付けするだけでなく、その定義にも寄与する。既存の研究は訓練と評価の両方において信頼性の低いプロキシに依存しているが、我々はエージェントのプライバシーアライメントの中心に人間の判断を据える。我々はPrivacyAlignを導入する。これは、現在のLLMが実際に漏洩する多様なシナリオにおいて、599人の異なるアノテーターから得られた3,516件の詳細なアノテーションを含む1,350サンプルのデータセットであり、これを人間のプライバシー規範に基づくアライメント訓練と自動評価の基盤として用いる。これらのアノテーションを基に、まず同じプロンプトに対する参照応答に関する人間のアノテーションと説明をLLM評価器に条件付けすることで、その判断の信頼性が向上することを示す。次に、アノテーション条件付き報酬モデリングを導入し、強化学習中にこれらのアノテーションを用いて新しい応答をスコアリングする。この報酬で訓練された小規模なオープンウェイトエージェントが人間のプライバシー規範とよりよく整合し、PrivacyAlignおよび既存のエージェント用プライバシーベンチマークにおいて大きな改善を示すことを明らかにする。
近年のステレオマッチングの進展により顕著な精度が達成されているが、多くの場合、大規模モデルや重い計算、あるいは基盤モデルの事前知識に依存しており、リソース制約のあるプラットフォームへの展開は困難である。対照的に、効率的なステレオモデルはより高速な推論を実現するが、一般的にゼロショット汎化能力は低いと考えられている。本論文では、この前提に挑戦し、効率的なゼロショットステレオマッチングのために設計された超高速モデルシリーズであるLite Any Stereo V2(LAS2)を紹介する。LAS2は、アーキテクチャと訓練の両面から開発された。アーキテクチャ面では、実用的な導入設定下での効率的なステレオ設計を再検討し、理論的なMACsのみではなく実際の推論レイテンシに最適化された、2次元のみのコスト集約フレームワークを提案する。訓練面では、合成教師信号、自己蒸留、実世界知識蒸留を組み合わせた3段階戦略を開発する。実世界の擬似教師信号の信頼性を向上させるために、擬似ラベルフィルタリングとエラークランプ操作をさらに導入し、合成から実世界へのよりスムーズな転移を可能にする。LAS2はモデルファミリーとして具体化され、異なる効率予算向けのフィードフォワード変種と、より高い精度向けの反復変種を含む。広範な実験により、LAS2は効率的なステレオ手法の中で最先端の精度を達成しつつ、顕著に低いレイテンシを維持することが示された。具体的には、LAS2-Hは反復手法Fast-FoundationStereoよりも全体的なゼロショット性能が優れており、H200およびOrin上でそれぞれ1.8倍および2.7倍高速な推論を実現する。プロジェクトページ、デモ、コードは https://tomtomtommi.github.io/LiteAnyStereoV2/ で入手可能である。
脱獄攻撃は、調整された大規模言語モデルにおける持続的な脆弱性を明らかにする。すなわち、慎重に作成されたプロンプトは、安全性の訓練にもかかわらずポリシー違反の応答を引き出し得る。ほとんどの防御策はプロンプトまたは出力レベルで機能するが、有害な意図がモデルの内部表現にどのように符号化されるかは未解明である。本研究では、凍結されたLLMの層を横断するトークンレベルの予測エントロピー軌跡をロジットレンズを用いて解析し、この問題を調査する。プロンプトレベルのエントロピーの静的な集約統計量(例:平均、分散)は識別信号をほとんど持たないのに対し、エントロピーがトークン位置間でどのように変化するかを捉える特徴量、例えば順位に基づく単調傾向スコアは、はるかに情報量が高いことが判明した。重要なことに、この信号はモデルの深さ全体で均一ではなく、中間層に集中し、最終層では減衰する。これは、脱獄に関連する構造が出力層ではなくネットワークの中間表現において最も顕著であることを示している。複数のモデル(Llama、Qwen、Gemma)と敵対的ベンチマークにわたり、これらのエントロピー動態は追加の訓練なしにアーキテクチャ間で一貫した分離を提供する。以上の知見は、脱獄動作が構造化された中間不確実性動態に反映されることを示し、有害な意図を符号化するエントロピー由来の特徴量と、その信号がネットワーク内で最も顕著になる位置を明確にする。
近年の推論モデルは、思考トークン(thinking tokens)を利用することで、指示調整モデル(instruction-tuned counterparts)よりもベンチマークで優れた性能を達成している。また一般に、このより「熟慮的」なモードは、モデルが要求に対する回答が自身の安全原則に違反していないかを検討するための安全な空間を提供することで、アライメントと安全性を向上させると考えられている。本稿では、この直感が必ずしも正しくないことを示す証拠を提示する。GPT-OSS、Qwen、Olmo、Phiファミリーにわたるフロンティアのオープンウェイト推論モデルにおいて、可視の思考が始まる前の最初のトークンの隠れ表現に学習済みヘッドを適用することで、最終的な拒否/遵守の結果がすでに強く予測可能である(拒否/遵守の予測においてAUROC 0.84-0.95、バランス精度約88%)ことを発見した。思考プロセスは、熟慮的な修正というよりも、むしろ接頭辞完成(prefix completion)に近く、テキストレベルでは熟議のように見えるにもかかわらず(テキストレベルの熟議の約74%は、応答分布がすでに拒否/遵守の片側に固定された後に発生する)、思考の最初の約20%以降では最終結果が変化することは稀である。また、既存の推論時および訓練ベースの安全介入は、熟議を誘発するという目的に動機づけられているにもかかわらず、ほとんどがモデルの行動を過剰拒否へとシフトさせ、すでに乏しい熟議シグナルを抑制していることも明らかにした。これらの結果は、現在の推論モデルにおける安全行動が一般的に想定されるよりもはるかに熟議的ではないことを示唆しており、真の安全熟議を誘発する手法の必要性を強調するものである。
動画生成モデルは現実的な動画を生成する能力が向上しているが、基本的な物理法則に従う動画を生成することには依然として苦慮している。これに加えて、動画内の物理法則違反を特定し詳しく評価するための信頼性の高い詳細評価手法が不足している。本研究では、この問題に対処するために、Physics Question Scene Graph(PQSG)を導入する。PQSGは、階層的な質問ベースの評価パイプラインである。PQSGは、視覚言語モデル(VLM)によって生成され、高品質なインコンテキスト例によって導かれるグラフベースの質問階層を用いて、オブジェクト、アクション、物理法則への準拠に関するプロンプトへの忠実性をチェックすることで、生成された動画を評価する。質問をグラフとして表現することで、PQSGは質問内に論理的依存関係を導入し、各クエリが文脈的に有効であることを保証する。さらに、PQSGは動画のどの性質が物理的妥当性の制約に違反しているかを詳細に評価する。我々は、FinePhyEvalというデータセットを作成することでPQSGを検証する。このデータセットは、物理ベースのプロンプトと、多様な最先端動画生成モデル(Sora 2、Veo 3、Wan 2.1)からの対応する生成動画で構成され、各動画は人間によって複数のカテゴリにわたって注釈が付けられている。FinePhyEvalを用いて、PQSGの詳細スコアと人間の判断との相関を測定し、従来研究よりも全体的に高い相関を示す。また、PQSGは物理的現実性において、クローズドソースモデルをWan 2.1よりも高く評価することが分かった。最後に、FinePhyEvalで提供する注釈がサブタスク評価にも使用できることを示す。2つの強力なVLMを用いて質問の生成と回答に関するベンチマークを行い、モデルは人間らしい質問を作成できるものの、回答においては人間の性能に及ばないことが分かった。
長期的なエージェントはコンテキスト管理に依存する。システムは古いトークンを圧縮、要約、破棄することで、タスクが有限なウィンドウを超えて継続できるようにする。これは、破棄された情報が不要になったか、内部化された場合にのみ安全である。計画はストレスケースである。すなわち、計画は早い段階で記述され、多くのステップで使用され、最初に破棄される対象となる。本稿ではリプレイペアリングを導入する。これは、履歴に計画がある場合とない場合で同じ軌道を実行し、隠れ状態のコサイン距離を測定する診断手法である。Llama-3.1-70Bでは、計画信号は計画の1ステップ後に0.453に急上昇し、その後1回の行動-観測ステップで4.1倍低下する。HotpotQAでは12.4倍低下する。これは、標準的なLLMエージェントが計画を永続的な状態として前方に保持せず、代わりに計画がコンテキスト内に残っていることに依存しているという証拠である。レイヤーL32のプローブはこの減衰を診断として検出するが、プローブ自体が計画内容を読み取っているという証明ではない。推論モデルは測定上の交絡要因を追加する。それらの`<think>`トレースは計画内容を再導出するため、標準的なストリッピングでは、ストリップされた条件に計画の証拠が残る。我々はこれを推論トレース交絡と名付け、厳格なストリッピングで修正する。これはストリップされた実行からのみ以前の`<think>`ブロックを削除する。これにより、サンプル内でステップ+1の信号の+163%を回復し、ホールドアウトで+153%を回復する。一方、非推論型のLlamaでは有意な変化は見られない(+4.8%)。DeepSeek-R1-Distill-Llama-70Bにおいて、Llamaで学習されたプローブはAUROC 0.748(p=6e-4)で転移するが、R1固有のプローブは1.000に達する。これはR1が計画信号を異なる隠れ状態方向に符号化していることを示唆する。最後に、圧縮ストレステストが実際のコストを示す。単純な計画破棄はALFWorldの成功率を34.7ポイント低下させるが、プローブゲートによる再表出化はそれを回復しない。貢献は、エージェントにとって重要な情報が永続的ではなくコンテキスト常駐であり得ることを示す測定およびストレステストのフレームワークである。コンテキスト管理は重要な役割を担っているが、計画保護だけでは十分ではない。
継続的テスト時間適応(CTTA)は、ラベル付きデータなしでオンライン適応を行うことにより、変化するターゲットドメイン下でモデルの性能を維持することを目的としている。しかし、実際の展開では、プライバシーやライセンスの制約によりソースデータセットを保持できないことが多く、純粋にソースフリーなCTTA手法は長期的な分布シフトの下で不安定になりやすく、自己学習エラーの複合と壊滅的忘却を引き起こす。我々はDO-ALL(Distill Once, Adapt Life-Long)を提案する。これは、データセット蒸留(DD)を介してコンパクトでプライバシーに配慮した形でソース情報を再活用するプラグアンドプレイフレームワークである。デプロイ前に、DO-ALLはDDを実行し、ソース分布を要約する小さな合成蒸留アンカーセットを生成する。適応中、各ターゲットサンプルは最も意味的に一致するアンカーとマッチングされ、ソースリプレイ、表現アライメント、および多様体平滑化正則化を介して、様々なCTTAに安定した参照を提供する。DO-ALLは既存のCTTAアルゴリズムにシームレスに統合でき、CIFAR100-C、ImageNet-C、CCCベンチマークにおいて長期的なロバスト性を一貫して向上させる。これは、生のソースデータを保持せずに安定した継続的適応を可能にするためにDDを活用する可能性を示している。コードはhttps://github.com/blue-531/DOALLで公開されている。
ツール呼び出しと構造化出力は、現代のエージェントシステムにおける2つの中核的な機能であるが、それらが同時にデプロイされた際の相互作用については、いまだ十分に理解されていない。本稿では、本番環境のエージェントシステムにおいて観測された再現可能な現象を報告する。すなわち、ツール呼び出しとJSONスキーマ制約が同時に有効化されると、複数のオープンウェイトモデルが、高いスキーマ準拠性を維持しながらも、ツールの呼び出しを停止するというものである。我々はこの挙動を「ツール抑制」と呼ぶ。複数のモデルファミリーおよびデプロイ環境での制御実験を通じて、このツール抑制が複合制約下で一貫して再現される一方、独立に評価した場合にはツール実行およびスキーマ準拠は機能し続けることを確認した。さらに詳細な分析により、JSONスキーマ制約は文法ベースのトークンマスクにコンパイルされ、その結果、デコード中にツール呼び出しトークンが到達不能になることが明らかになった。これは観測された挙動に対する実装レベルの説明を提供する。この現象を解釈するため、我々は「制約優先度反転」仮説を定式化する。これは、複数の同時制約下ではスキーマ充足が行動選択行動を支配する可能性を示唆するものである。我々はCPIを、検証された内部メカニズムではなく、観測された証拠と整合する行動仮説として提示する。この問題を軽減するために、我々は「透明な2パス実行」という推論時戦略を提案する。これはツール実行とスキーマ制約付き応答生成を分離するものである。実験結果は、このアプローチがモデルの再学習を必要とせずに、構造化出力の保証を維持しながらツール呼び出しを回復することを示している。これらの知見は、ツール使用と構造化出力を別々に評価することは、本番エージェントシステムにおける重要な信頼性の問題を見落とす可能性があることを示唆している。コード、データ、ドキュメントはhttps://github.com/Fzsama/Constrain-Tax-26-06.gitで公開予定である。
AIシステムへの信頼は、多くの場合、その仕組みを説明する説明に基づいており、その説明を用いて新しい入力に対する挙動を予測する。大規模推論モデル(LRM)の場合、この従来の方法は特に困難である。個々のトークン生成に対する説明手法は、長い軌跡に自然に一般化できず、また軌跡そのものを自然言語として読むと正確でないことが多い。本稿では、説明のステップを回避する代替手法を提案する。すなわち、行動予測を学習可能なタスクとして扱い、単一の推論軌跡に基づいて、通常説明から得たい予測と同じ予測を行う「行動予測器(Behavior Forecaster)」を訓練する。予測器の訓練データは、人間のアノテーションなしでLRMに問い合わせることで得られ、その推論は単一の順伝搬で実行される。本手法を2つのタスクに適用する。すなわち、LRMが再実行時にその回答を繰り返す可能性、および入力の一部を削除すると回答がどのように変化するかである。3つの多様な推論データセットを用いて両方のタスクで本手法を評価した結果、訓練された行動予測器は、同じ軌跡を単純に読むGPT-5.4やClaude Opus-4.6よりも高精度であり、その推論コストはごく一部であることがわかった。また、バックボーンをエンドツーエンドで微調整し、対象LRMから初期化することが、強力な性能にそれぞれ必要であることが判明した。これらの結果は、推論軌跡が、単純な読み取りでは伝わらないLRMの将来の行動に関する情報を含むことを示している。
表現的なテキスト音声合成(TTS)および音声変換(VC)システムが非言語発声(NVV)を生成して自然性を高めるにつれて、信頼性の高い話者照合(SV)が言語セグメントと非言語セグメントの両方にわたって同一性の一貫性を客観的に評価するために不可欠となっている。しかし、現在のSVシステムはNVVに対して汎化性能が低く、NVVデータでファインチューニングすると音声性能の破滅的忘却を引き起こす。本稿では、10種類のNVVにわたる初の体系的研究を提示し、凍結したData2Vec自己教師あり特徴量とECAPA-TDNNを組み合わせ、学習可能なドメイン認識ルーティングを備えた専門家混合(MoE)モジュールで強化したフレームワークを提案する。事前学習済み教師モデルを介した音声入力に対する条件付き蒸留損失により音声間の精度を維持し、対照損失によって音声とNVVのドメインギャップを埋める。本手法は、事前学習ベースラインと比較して音声-NVVの等価エラー率(EER)を38.93%から22.66%に低減し、蒸留により音声EERを13.17%から9.24%に改善する。