翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)を用いた検索エージェントは、複数回の推論と情報検索を通じて、知識集約型言語タスクにおいて大きな可能性を示している。既存のほとんどのシステムでは、キーワードや自然言語クエリを受け取り、事前計算された文書表現のインデックスを用いてランク付けされた文書リストを返す検索器を用いて情報にアクセスする。本研究では、検索エージェントがコーパス自体を検索環境として扱い、実行可能なシェルコマンドを発行することで証拠を見つけるという、相補的な視点を探求する。我々は、GrepSeekを提案する。これは最適化された直接コーパス対話型(DCI)検索エージェントであり、大規模テキストコーパスから証拠を見つけ、フィルタリングし、構成するためのコンパクトな検索エージェントを訓練する。大規模コーパス上で強化学習を用いて直接的に行動学習を行う際の不安定性に対処するため、二段階の訓練パイプラインを提案する。第一段階では、解答を認識するTutorと解答を参照しないPlannerを用いて、検証済みで因果的に根拠付けられた検索軌跡を生成し、コールドスタート用データセットを構築する。第二段階では、Group Relative Policy Optimization(GRPO)を用いて初期化された方策を洗練し、エージェントがコーパスとの直接的な相互作用を通じてタスク指向の検索行動を改善できるようにする。さらに、DCIを大規模に実用的にするため、意味を保持するシャーディング並列実行エンジンを使用する。これにより、シェルベースの検索を最大7.6倍高速化しつつ、シェルコマンドの逐次実行とバイトレベルの完全等価性を維持する。7つのオープンドメイン質問応答ベンチマークにおける実験結果は、GrepSeekが全体的に最も優れたトークンレベルのF1スコアとExact Matchを達成することを示している。また、我々の分析は、表面形式の変動が大きいクエリに対する純粋な字句的相互作用の限界を明らかにし、現実世界において既存の検索パラダイムを補完できる実用的で競争力のある検索エージェント手法としてのDCIの可能性を示唆している。
LLMエージェントは、単独のタスクを完了するだけでなく、人間の専門知識、判断力、対話スタイルの境界付き表現を保持することが期待されるようになってきている。このような人物に基づいたエージェントを構築することは、個人や役割に関連する実践的な知識が、明確な指示としてではなく、異種の痕跡に埋め込まれていることが多いため、依然として困難である。既存の記憶システムやペルソナシステムは、そのような証拠の断片を捉える一方、スキルフレームワークは移植可能なパッケージ形式を提供するが、これらの痕跡を検査可能で修正可能かつエージェントが利用可能なスキルに蒸留するためのエンドツーエンドのワークフローは存在しない。本稿では、専門知識の蒸留を通じて人物に基づいたAIスキルを生成する、自動化された痕跡からスキルへの蒸留システムを提案する。対象人物や役割の素材を入力として、COLLEAGUE.SKILLは、実践、メンタルモデル、意思決定ヒューリスティックのための「能力トラック」と、コミュニケーションスタイル、対話ルール、修正履歴のための「境界付き振る舞いトラック」という2つの調整されたトラックを持つバージョン管理されたスキルパッケージを生成する。このパッケージは、検査、呼び出し、自然言語フィードバックによる更新、ロールバック、複数のエージェントホストへのインストールが可能であり、必要に応じて管理された配布に備えることもできる。本稿では、オープンソースシステムに実装されたアーティファクト契約、生成ワークフロー、修正ライフサイクル、展開面、ドメインプリセットについて説明する。本稿執筆時点で、公開リポジトリは約18.5kのGitHubスターを獲得しており、ギャラリーには165名の貢献者による215のスキルが掲載され、掲載されたスキルカード全体で10万を超える累計スターを記録している。本システムは、人物に基づいたスキルを不透明なプロンプトや隠れた記憶ではなく、移植可能で修正可能なパッケージとして表現できることを示している。
オン方策蒸留(OPD)は、自身の方策からサンプリングされたプレフィックスに対して生徒モデルを訓練し、より強力な教師モデルに一致させる手法である。これによりオフライン蒸留におけるプレフィックスの不一致に対処できるが、初期の生徒のロールアウトは依然として質が低く、教師による監督が弱いまたは低品質のプレフィックスに適用される可能性がある。本稿では、信頼領域行動ブレンディング(TRB)を提案する。これはウォームアップ手法であり、初期のロールアウト方策を、生徒中心のKL信頼領域内で教師に最も近い行動方策に置き換える一方、プレフィックスごとの逆KLのOPD損失は変更しない。KLの予算はゼロに向けてアニーリングされるため、ウォームアップ後は訓練が純粋な生徒のロールアウトに戻る。2つの数理論理的推論蒸留設定において、TRBは比較手法の中で最も高い平均性能を達成した。
統合マルチモーダルモデル(UMM)は、単一のモデルで知覚と生成を扱うことを目指している。しかし、既存のUMMは依然として画像生成に凍結され別途事前学習されたVAEに依存しており、構造的なボトルネックを課している。それを単純に除去すると品質のギャップが生じる。なぜなら、モデルが生のピクセルから高レベルの構造と低レベルの詳細の両方を学習しなければならないからである。本論文では、表現予測をモデルのネイティブな機能とすることでこのギャップを埋める手法である表現強制(RF)を提案する。具体的には、RFはデコーダに、ピクセルの前に中間トークンとして視覚表現を自己回帰的に予測させる。これらのトークンはその後コンテキスト内に留まり、同じバックボーン内でのピクセル拡散を導く。知覚出力からの表現を生成目標に変換することにより、RFは外部の生成的潜在空間を必要としなくなる。RFは理解と生成の両方に利益をもたらすことがわかる。画像生成において、RFを備えた我々のピクセル空間モデルは、最先端のVAEベースの統合モデルに匹敵する。画像理解において、ピクセル空間RFは一般的にVAEベースの変種よりも優れている。これらの結果は、エンドツーエンドでボトルネックのないUMMに向けた効果的な一歩を提供する。
本稿では、トークンあたり2.5Bのアクティブパラメータを持つ、オープンウェイトの12BパラメータMixture-of-Experts (MoE) 言語モデルであるMellum 2を発表する。Mellum 2はソフトウェアエンジニアリングに特化した汎用言語モデルであり、コード生成・編集、デバッグ、マルチステップ推論、ツール利用と関数呼び出し、エージェント型コーディング、対話型プログラミング支援を網羅する。これは、完了タスクに特化した4B denseモデルであるMellumの後継にあたる。アーキテクチャはMixture-of-Experts(64エキスパート、8アクティブ)を基盤とし、4つのKVヘッドによるGrouped-Query Attention、4層ごとに3層に適用されるSliding Window Attention、そして補助的な事前学習目的と投機的復号化のための内蔵ドラフトモデルとして機能する単一のMulti-Token Predictionヘッドを組み合わせている。各設計選択は、市販GPUでの推論効率を設計制約としたアブレーション実験により検証されている。事前学習は約10.6兆トークンにわたって3段階のカリキュラムで行われ、多様なWebデータから厳選されたコードおよび数学コンテンツへと混合比が段階的に移行する。最適化には、FP8ハイブリッド精度下でのMuonと、線形減衰を伴うWarmup-Hold-Decayスケジュールを採用した。事前学習済みベースモデルは、層選択的なYaRNを介して128Kコンテキストウィンドウに拡張され、その後2段階のポストトレーニング(教師ありファインチューニング、続いてRLVR)を経て、2つのリリースバリアントが生成される。直接回答を行うInstructモデルと、最終回答の前に明示的な推論過程を出力するThinkingモデルである。コード生成、数学・推論、ツール利用、知識、安全性の各ベンチマークにおいて、Mellum 2は2.5B denseモデルのトークンあたりの計算量で動作しながら、4B~14Bの範囲のオープンウェイトベースラインと競争力のある性能を示す。本稿では、ベース、インストラクト、シンキングの各チェックポイントを、アーキテクチャの決定、データパイプライン、トレーニングレシピに関する本レポートとともに、Apache 2.0ライセンスの下で公開する。
ゼロショット音声合成(TTS)は単一話者合成において大幅に改善されたが、表現力豊かな長編マルチスピーカー対話は依然として困難である。一般的な回避策は、各発話をモノローグTTSモデルで合成し、出力を連結することである。これにより推論コストが増加し、発話間の音響的一貫性、会話の結束性、感情の連続性が損なわれることが多い。近年の対話TTSシステムはこの設定に対応し始めているが、表現の一貫性、制御可能な話者切り替え、モノローグ品質を同時に維持することには依然として苦戦している。本稿では、SwanData-SpeechとSwanVoiceを提案する。SwanData-Speechは、実環境の音声からモノローグおよび対話コーパスを構築し、ポーズ認識の単語レベルアライメントにSwan Forced Alignerを、発音困難ケースにRobustMegaTTS3を使用する。これらのデータに基づき、SwanVoiceは1~4話者向けのゼロショットTTSモデルであり、25 HzのVAE、ポーズ認識記号とピンイン置換を用いた生テキストコンディショニング、話者ターンコンディショニングを備えたフローマッチングDiTを組み合わせる。トレーニングはモノローグ音声から開始し、混合データおよび実対話データを経て、その後、音素レベルおよび話者類似度報酬を用いたDiffusionNFT後訓練を適用する。SwanBench-Speechにおいて、SwanVoiceはモノローグおよび対話設定の両方で評価されたすべてのオープンソースベースラインよりも高い豊かさと階層性スコアを達成したが、コンテンツ精度が依然として主な制限である。音声デモはhttps://swanaigc.github.io//#swanvoiceで提供されている。
長文脈推論は依然として大規模言語モデルにとって中心的な課題であり、膨大な妨害情報の中から重要な情報を特定し統合することにしばしば失敗する。検証可能な報酬を用いた強化学習(RLVR)はこのタスクに有望であることが示されているが、既存手法は混乱度の低い妨害情報に限定され、中間推論ステップを監督できない疎で結果のみの報酬信号に依存するという課題がある。これらの問題に対処するため、我々はLongTraceRLを導入する。データ構築においては、知識グラフ上のランダムウォークを介してマルチホップ質問を生成し、検索エージェントの軌跡を活用して階層的な妨害情報を構築する。すなわち、エージェントが読んだが引用しなかった文書(高混乱度)と、検索結果に現れたが開かれなかった文書(低混乱度)である。これにより、ランダムサンプリングやワンショット検索で構築されたものよりもはるかに挑戦的な訓練コンテキストが生成される。報酬設計においては、各推論連鎖上の正解エンティティを細粒度のエンティティレベルプロセス監視として用いるルーブリック報酬を提案する。このルーブリック報酬は、正しい最終回答を持つ応答にのみ適用され(正解のみ戦略)、正解応答間の推論品質を区別し、報酬ハッキングを防止する。3つの推論LLM(4B〜30B)を対象に5つの長文脈ベンチマークで実験を行った結果、LongTraceRLが強力なベースラインを一貫して上回り、包括的で証拠に基づく推論を促進することが示された。コード、データセット、モデルはhttps://github.com/THU-KEG/LongTraceRLで公開されている。
既存のテキスト駆動型3D室内シーン合成手法の大半は、オブジェクト中心のプロンプトに基づいて部屋を生成し、「どの家具を配置すべきか」は問うものの、「空間がどのように使用されるか」は考慮していない。しかし実際のインテリアデザインでは、レイアウトはその空間の利用者(例えば、彼らの活動や身体的ニーズ)をいかにうまく支援するかによって評価される。我々は、機能仕様(すなわち、部屋を誰が使用し、そこで何を行う必要があるかを記述した自然言語によるデザインブリーフ)から3D室内レイアウトを生成するフレームワーク、Function2Sceneを導入する。本システムは、与えられた仕様に基づいて利用者のペルソナと活動を解析し、空間的、人間工学的、活動的、環境的考慮事項を網羅する17の基準からなる分類体系に従ってカスタマイズされた機能的デザイン制約のセットを導出し、これらの制約を用いてレイアウト生成を誘導する。Function2Sceneは、最終的なシーンをLLMに直接生成させるのではなく、ツール拡張されたチェック・アンド・リペアループ(幾何学的計測、LLMに基づく文脈推論、VLMに基づく視覚評価を組み合わせたもの)による反復的な評価と改良を実行する。プロが作成した30のインテリアデザイン事例を用いた実験により、Function2Sceneは、近年のLLMベースのシーン合成ベースラインと比較して、機能要件をよりよく満たすレイアウトを生成し、ペアワイズ比較の94.3%で我々の結果が好まれることが示された。本研究は、テキスト駆動型室内シーン合成を、妥当なオブジェクトを配置することから、人間の使用を支援する空間を設計することへと方向転換するものである。
実世界画像復元(IR)は、高品質なペアデータの不足によってボトルネックに直面している。合成データセットは豊富に存在するが、実世界の劣化をうまくモデル化できないことが多く、一方で実世界のペアデータセットは収集にコストと労力がかかる。その結果、これらのデータセットで学習されたIRモデルは、実世界のシナリオにおいて限られた汎化性能しか示さない。本研究では、生成的マルチモーダル基盤モデル(MFM)を活用し、実世界の低品質(LQ)画像から高品質(HQ)ターゲットを生成する「生成的グラウンドトゥルース(GGT)」を提案する。まず、Nano-Banana-2やGPT-Image-2を含む9つの最先端MFMについて、様々なシーンや劣化タイプの画像を用いた体系的な評価を行う。その結果、VLMに基づく適応的プロンプティングを備えたNano-Banana-2が、知覚的に現実的で内容に忠実なHQターゲットを合成する能力において最も優れており、LQ入力に対するGGTとして機能できることが示された。次に、Nano-Banana-2を用いてGGT合成パイプラインを構築する。このパイプラインは、データの信頼性を確保するための多段階品質管理を含み、多様なシーンと複雑な実世界の劣化をカバーする103,707組の訓練ペアからなるLQ-HQペアデータセット「GGT-100K」を構築する。また、500組の画像ペアからなるテストセットも作成する。広範な実験により、GGT-100Kが多様なIRモデルの実世界での汎化性能を一貫して向上させ、特に生成モデルをIRタスクに微調整する際に顕著な効果をもたらすことが示された。これらの結果は、MFMが復元指向のデータ生成における実用的なツールとして機能し得ること、およびGGT-100Kが実世界IRモデルの汎化限界を拡張するための有用なリソースであることを示唆している。
リアルタイムかつ正確な空間音響生成は、没入感のある体験を提供する上で極めて重要である。しかし、既存の空間音響合成技術は、生成品質と高い推論遅延との間のトレードオフや、マルチモーダル入力から正確な空間情報を捉える難しさにしばしば妨げられている。これらの課題に取り組むため、我々はSwanSphereを提案する。これは、パノラマ動画とテキストプロンプトから高忠実度の空間音響生成を行うための統合ストリーミングフレームワークである。SwanSphereは主に以下の貢献を行う。1) ストリーミングによる高品質な空間音響生成を可能にする因果的自己回帰拡散トランスフォーマーアーキテクチャを導入する。2) 映像エンコーダを音響ドメインに整合させる空間的映像-音声対比学習(SVAC)戦略を設計し、さらに多目的オンライン直接選好最適化(ODPO)スキームを採用することで、強力な空間知覚とロバストなマルチモーダル空間音響合成を実現する。3) 現在の空間音響データセットの不足を緩和するため、詳細な空間キャプションを生成する自動アノテーションパイプラインも開発する。実験結果は、SwanSphereが映像から空間音響への生成タスクとテキストから空間音響への生成タスクの両方において優れた性能を達成することを示している。デモは https://swanaigc.github.io で公開されている。
リアルタイムストリーミングビデオ間編集(V2V)は、ライブ配信やゲームなどのインタラクティブなアプリケーションにとって極めて重要であるが、時間的一貫性と推論スループットに対する厳格な要件のために、依然として困難な課題である。本論文では、SANA-Streamingを提案する。これは、コンシューマGPU上での高解像度リアルタイムストリーミングビデオ編集のためのシステム-アルゴリズム協調設計フレームワークであり、以下の3つの中核的設計を持つ。(1) ハイブリッド拡散Transformerアーキテクチャは、一部のブロックにソフトマックスアテンションを導入することで、線形層の効率を維持しつつ局所的なモデリング能力を向上させる。(2) サイクルリバース正則化は、フローマッチングを介して生成コンテンツからソースフレームを予測することにより意味的一貫性を強制する新規な学習戦略であり、ペア化された長編編集ビデオを必要とせずに時間的一貫性を向上させる。(3) 効率的なシステム協調設計は、NVIDIA Blackwell (RTX 5090)アーキテクチャ向けに最適化された融合GDNカーネルと混合精度量子化(MPQ)を組み合わせる。実世界のスループットをプロファイリングすることにより、我々のMPQは生成品質を維持しつつTensor Core利用率を最大化する。結果として得られたシステムは、単一のRTX 5090 GPU上で1280×704解像度のリアルタイム編集をエンドツーエンド24 FPSで実現し、DiTコアは58 FPSで動作する。実験結果は、我々の協調設計アプローチが時間的コヒーレンスとシステムスループットの両方において既存の最先端手法を大幅に上回ることを示している。
近年、音声生成技術の進展により高忠実度な合成が可能となったが、長期コンテキスト条件下におけるモデルの体系的な評価は依然としてほとんど未開拓である。長文音声のための包括的な評価ベンチマークが不可欠である理由は二つある。1) 既存のテストシナリオは限られた領域に留まることが多く、多様な下流アプリケーションとの間に大きなギャップが存在すること。2) 既存の指標は一貫性や首尾一貫性など、長文テキストに特有の要因を見落としており、信頼性のある一般化ができないこと。この目的のために、我々は長文音声の品質を具体的で分離された次元に分解する包括的ベンチマークであるSwanbench-Speechを提案する。SwanBench-Speechには三つの主要な特性がある。1) 豊富な音声シナリオ:長文音声生成と対話生成に焦点を当て、音響、意味、表現力の課題を網羅し、17の一般的な音声シナリオにわたる1,101サンプルから構成される。2) 包括的な評価次元:音響、意味、表現力の軸に沿って、SwanBench-Speechは七つの指標からなる自動評価プロトコルを定義し、包括的で正確かつ標準化された評価を提供する。3) 有益な洞察:広範な実験を通じて、現在のモデルは表現力の高いシナリオで依然として困難に直面しており、実際の録音と比較して一貫性と階層性において顕著なギャップがあることが明らかになった。
長期記憶は、マルチモーダルエージェントが一貫した経験を構築し、世界知識を蓄積し、継続的学習を実現するために不可欠である。しかし、効果的な記憶の構築は、記憶モジュールの設計や精度・忠実性といった基本的要件を超えており、鍵となる課題は「何を記憶すべきか」を決定することにある。身体性エージェントなどのマルチモーダルエージェントは、実環境または仮想環境において継続的に知覚・推論・行動を行い、無制限のマルチモーダル観測ストリームを受け取る。この情報の組合せ爆発の中から、エージェントは環境内での役割に関連し、将来のタスクにとって価値のあるコンテンツを選択的に保持しなければならない。このギャップを埋めるため、我々は記憶生成を学習可能な記憶化方策として捉え、TaskMem(タスク焦点型記憶化方策学習)を導入する。これは強化学習に基づくフレームワークであり、方策が環境内で遭遇する実タスクの要求に応じてその焦点を動的に調整することを可能にする。TaskMemは2段階の学習パラダイムを採用する。第1段階では、基本的な忠実性要件の下で記憶品質を最適化することにより、「どのように記憶するか」を学習する。第2段階は展開後に行われ、エージェントはベースMLLM上でアダプタをチューニングし、直近の環境タスクを用いて報酬モデルを定義することで、記憶化方策をタスク関連コンテンツへと導く「何を記憶するか」を学習する。本手法を評価するために、VideoMME、EgoLife、EgoTempoをストリーミングベンチマークとして再構成し、エージェントがストリーミング観測を処理し、オンラインで到着するタスクに対処する現実的な設定をシミュレートする。記憶評価を分離するため、質問にはエージェントの記憶のみを用いて回答し、生の動画にはアクセスできないものとする。Qwen3-VL-30B-A3Bを基盤とするTaskMemは、これらのベンチマークにおいてVQA精度をそれぞれ6.3%、7.0%、5.3%向上させる。
拡散大規模言語モデル(dLLMs)は、自己回帰モデルに代わる有望な選択肢として最近登場し、競争力のある性能を提供すると同時に、自然に並列デコードをサポートしています。しかし、dLLMsがモデル容量を拡大するために専門家混合(MoE)アーキテクチャとますます統合されるにつれて、ブロック並列デコードとトークンレベルの専門家選択の間に根本的な不一致が生じます。具体的には、各dLLMの順伝播は双方向依存関係を持つ複数のトークンを処理する一方、従来のMoE層は各トークンを独立にルーティングします。この不一致により、一意に活性化される専門家数が大幅に増加し、推論がますますメモリ律速となります。これに対処するため、我々はシンプルでありながら効果的なブロックレベルのMoEフレームワークであるdMoEを提案します。dMoEの中心的なアイデアは、各ブロック内のトークンレベルの専門家分布を統一されたブロックレベルの専門家分布に集約し、それを用いてより一貫した方法で専門家ルーティングを導くことです。これにより、dMoEは性能を犠牲にすることなく推論時の一意に活性化される専門家数を大幅に削減し、メモリ律速のボトルネックを緩和します。多様なベンチマークにわたる広範な実験により、dMoEの有効性が実証されています。平均して、dMoEは一意に活性化される専門家数を69.5から14.6に削減し、元の性能の99.11%を維持します。同時に、メモリ使用量を76.64%から79.84%削減し、エンドツーエンドのレイテンシを1.14倍から1.66倍高速化します。コードは https://github.com/fscdc/dMoE で公開されています。
オン・ポリシー蒸留(OPD)は、生徒モデル自身のロールアウト上で、トークンレベルの教師信号を用いて生徒を訓練する手法である。近年の選択的OPD手法では、高エントロピーまたは高不一致のトークンを優先することにより、OPD信号の非一様性を活用している。我々はこの原理を再考し、「実際に学習可能なトークンレベルの教師信号とは何か」という問いを立てる。固定コンテキスト診断(同一コンテキストにおける教師-生徒間KLダイバージェンスの低減量を測定する手法)を用いて、生のKL不一致は学習価値の粗い代理指標に過ぎないことを示す。それは、教師が生徒の上位k候補に修正的な確率質量を割り当てる「学習可能な不一致」と、教師が確率質量の大部分を生徒の現在のサポートから外れた場所に置く「非互換な不一致」を混同している。我々はこの局所的な互換性を「トークンの教示可能性」として定式化し、それが生のKLのみよりも固定コンテキストでの改善度をよく予測することを示す。この知見に基づき、我々は報酬モデルや検証器を用いずに、高い教示可能性を持つ位置にOPD損失を適用する軽量なトークン位置選択手法「教示可能性を考慮したOPD(TA-OPD)」を提案する。Qwen2.5およびQwen 3の教師-生徒設定において、TA-OPDは全トークンOPDを、わずか5%の保持トークンでしばしば上回り、エントロピーおよびダイバージェンスに基づくベースラインよりも改善を示す。我々の結果は、選択的OPDを単なる顕著なトークンの選択ではなく、学習可能な教師信号の選択として捉え直すものである。
自己対戦により、言語モデルは外部からの監督なしで訓練することができる。しかし、既存の手法は規則で検証可能な回答を必要とするため、自由形式タスクは厳選されたプロンプトやフロンティアモデルによる評価者に依存したままである。本稿では、自由形式タスク向けのデータ不要な自己対戦フレームワークSCOPEを提案する。SCOPEでは、文書に基づくタスクを生成するChallengerと、マルチターン検索を通じてそれらに回答するSolverという2つのポリシーが共進化する。初期モデルの凍結コピーが自己評価者として機能し、ソース文書からタスク固有の評価基準を作成し、それに照らしてSolverの応答を採点する。3つの7B~8Bの指示チューニング済みモデル(Qwen2.5、Qwen3、OLMo-3)において、SCOPEは8つのベンチマークで最大+10.4ポイントの自由形式性能の向上を達成し、約9,000件の厳選プロンプトで学習したGRPO_dataと同等またはそれを上回る。自由形式タスクのみで訓練されたにもかかわらず、SCOPEは保持された7つのショートフォームQAベンチマークにおいても最大+13.8ポイントの改善を示し、3モデルすべてでGRPO_dataを凌駕した。アブレーション実験により、Challengerの共進化がタスクをSolverのフロンティア付近に維持するために必要であること、性能向上は検索と合成の両方の改善によるものでありその相対的な寄与はタスクによって異なること、そして自己評価におけるボトルネックは評価基準生成の品質であることが示された。
エージェント的検索により、LLMは反復的な推論と外部検索を通じて複雑なマルチホップ質問を解決できる。その有効性にもかかわらず、これらのシステムは実践上、重要な限界に悩まされることが多い。すなわち、エージェントは自身の知識の境界を認識できず、内部知識で十分な場合にも盲目的に検索を開始し、十分な証拠が収集された後も検索を終了できない。この自己認識の欠如は深刻な過剰検索を引き起こし、大きな推論遅延と法外な計算コストを招く。この問題に対処するため、本稿ではSAASを提案する。これは、精度を損なうことなく検索行動を精密に制御する動的な自己認識を育成するための、新たな強化学習フレームワークである。SAASは以下の3つの主要構成要素を導入する。(i) 検索境界モデリング機構:検索を無効にしたロールアウトと有効にしたロールアウトを対比させることで、進化する方針の下での検索境界を特定する。(ii) 境界認識報酬モジュール:この境界認識を軌跡レベルのペナルティに変換し、不要かつ冗長な検索を抑制する。(iii) 段階的最適化戦略:逐次的カリキュラムを活用して検索の正則化よりも推論を優先し、報酬ハッキングを回避する。広範な実験により、SAASが精度を維持しつつ過剰検索を大幅に削減することが実証された。本コードはhttps://github.com/XMUDeepLIT/SAASにて匿名公開されている。
ビデオ言語モデルは限られたフレーム数しか処理できないため、フレーム選択が効率的なビデオキャプショニングの主要なボトルネックとなっている。ほとんどのキャプショニングパイプラインは依然として均一サンプリングに依存しており、これは計算コストは低いが視覚的な内容に依存しない。適応フレームサンプリングは、ビデオから最も情報量の多いフレームを選択する有望なアプローチとして最近登場したが、既存の手法は依然として計算コストが高い。本稿では、キャプション条件付きフレーム関連性ランキングを強力な教師モデルから、視覚的な内容のみで動作する軽量な時間モデルに蒸留する、効率的な動的フレームサンプリング手法PEEKを紹介する。全体として、ActivityNet CaptionsおよびMSR-VTTにおいて、本手法は評価されたすべての下流視覚言語モデルで最先端手法を上回り、特にキャプショニングに1~2フレームのみが選択された場合に、ほとんどのフレーム予算で最高のCIDErを達成していることがわかった。ActivityNet Captionsでは、PEEKは特に優れており、16の設定中14で勝利した。MSR-VTTでのゼロショット評価では、本モデルは低フレーム予算で最もよく転移する一方、4フレームおよび8フレームでは、時間的カバレッジと視覚的多様性が競争力を増すため、結果はよりまちまちである。最近の適応ベースラインと比較して、PEEKは低予算領域でより正確であるだけでなく、より効率的である: キャプショニング時間に対する追加はわずか5.2%であり、CSTAの65.4%、MaxInfoの211.9%と対照的である。コードと事前学習済みチェックポイントをhttps://github.com/momentslab/peekで公開する。
大規模言語モデル(LLM)は汎用タスクにおいて高い性能を示す一方、高品質なドメイン固有データなしでは専門領域への適応にしばしば困難を伴う。既存のLLMベースのデータキュレーション手法は主に人手による設計ワークフローに依存しており、LLMがモデル特化のためのエンドツーエンドのデータエンジニアリングパイプラインを自律的に実行できるかどうかは未検討である。本稿では、新たなタスクとして「自律エージェント型データエンジニアリング」を定式化する。これは、LLMを自律的なデータエンジニアとして評価し、エンドツーエンドのデータキュレーションを通じてモデル特化を推進するものである。我々はデータを最適化可能なコンポーネントと捉え、エージェントが複数ドメインにわたってトレーニングデータを計画・生成・反復的に最適化し、訓練後の性能向上に基づいて誘導する機構を研究する。実験の結果、自律型LLMデータエンジニアは顕著な利益をもたらすことが示された。例えば、GPT-5.2は反復的なエージェント駆動型データ適応により、生徒モデルの性能を57.29%向上させるトレーニングカリキュラムを構築した。その可能性とボトルネックの両方を明らかにすることで、本研究は自律型データエンジニアリングを測定可能な能力として確立し、エージェント駆動型モデル特化への道筋を示す。コードはhttps://github.com/zjunlp/DataAgentで公開予定である。
実世界データ分析は本質的に反復的であるが、既存のベンチマークの大半は孤立した短期間の対話タスクを評価するにとどまり、エージェントが長期にわたって進化する分析コンテキストを追跡する能力は未検証である。我々はLongDSを提案する。これは、エージェントが進化する分析状態を維持、更新、復元、合成しなければならない、長期・マルチターンデータ分析のためのベンチマークである。LongDSは、実世界のKaggleノートブックから構築された68のタスクで構成され、地球科学、ビジネス、教育を含む6つのドメインにわたり、計2,225ターンに及ぶ。タスクは状態進化パターン(例:反事実摂動、ロールバック、複数状態合成)に基づいて設計されており、平均依存スパンは11.3ターンである。5つの最先端モデルを評価した結果、最良モデルの平均精度は48.45%に過ぎず、初期ターンから後期ターンにかけて性能は約47ポイント低下し、長期エラーが失敗の52%~69%を占めることが判明した。さらに分析を進めると、エージェントの追加ステップは必ずしも性能向上につながらず、主要なボトルネックは対話予算の増加ではなく、正確な分析状態の維持にあることが示唆される。我々はLongDSを公開し、信頼性の高い長期エージェント型データ分析に関する研究を支援する。コードとデータはhttps://github.com/zjunlp/DataMind で公開予定である。
ビジョン・ランゲージ・モデル(VLM)は、プロンプトを通じて様々な視覚タスクを統合的に解決するモデルを実現する。これらは意味理解において有望な性能を示している。しかし、3D理解は依然として複雑なタスク固有の設計を伴う専門的な視覚モデルに大きく依存している。本研究が主張する核心は、VLMが本質的に3D学習者であるということである。我々の大規模な詳細研究により、1) 焦点距離の統一、2) テキストベースのピクセル参照、3) データ混合とスケーリングが、効果的な3D学習に必要な全てであることが示された。モデルアーキテクチャの変更、大規模モデル、強力なデータ拡張、回帰定式化を含む複雑な損失関数など、専門的な視覚モデルの基盤を成すこれらの多くは、実は必須条件ではない。その結果、我々はVLM3を提案する。これは、標準的なVLMが多様な3Dタスクを習得できるようにする、最もシンプルな設計を持つスケーラブルな手法である。VLM3は、VLMの深度推定精度を大幅に向上させる(0.84→0.9)だけでなく、画素対応、カメラ姿勢推定、オブジェクトレベルの3D理解といった多様な3Dタスクを可能にし、標準的なアーキテクチャとテキストベースの訓練を維持しながら、専門的な視覚モデルの精度に匹敵する。我々はVLM3が、シンプルでスケーラブルな3D学習の新たなパラダイムを開くと信じている。
線形複雑性のアテンション機構は、二次のボトルネックを克服するSoftmaxアテンションの有望な代替手段を提供するが、そのようなモデルをゼロから訓練することは非常に高コストである。事前学習済みTransformerから重みを継承することは魅力的な近道となるが、Softmaxアテンションと線形アテンションの間の基本的な表現のギャップが、効果的な重みの転送を妨げる。本研究では、この変換の課題にアーキテクチャの整合性と表現の整合性という二つの観点から取り組む。我々は、テスト時訓練(TTT)を線形複雑性のアーキテクチャとして特定し、その二層の動的定式化がSoftmaxアテンションと構造的に整合しているため、事前学習済みアテンション重みの直接的な継承を可能にする。さらに、キーシフト不変性や局所性を含む表現特性を整合させるために、キーインスタンス正規化と軽量な局所性強化モジュールを導入する。我々はStable Diffusion 3.5を線形化することで本手法を検証し、SD3.5-T^5(Transformer To Test Time Training)を導入する。4台のH20 GPU上でのわずか1時間のファインチューニングにより、SD3.5-T^5はファインチューニングされたSoftmaxモデルと同等のテキストから画像への品質を達成しつつ、1Kおよび2K解像度で推論をそれぞれ1.32倍、1.47倍高速化する。コードは https://github.com/LeapLabTHU/Transformer-to-TTT で公開されている。
GUIエージェントは急速に進歩しているものの、自身の誤りから回復する堅牢性に欠けることが多く、現実世界への展開を妨げている。このギャップを評価レベルとデータレベルの両方で埋めるため、我々はGUI-RobustEvalを導入し、堅牢性駆動型軌跡合成(RoTS)を提案する。GUI-RobustEvalは1,216個の実行可能なテストケースを含み、広範囲かつ現実的なエラーモードにわたって誤り回復能力を体系的に測定する。データレベルでは、RoTSはスケーラブルな合成フレームワークであり、ツリーベースのパイプラインを通じて多様なエラーモードを積極的に発見し、対応する回復ステップを合成することで80万件の高品質データを生成する。我々のデータセットで微調整された2つのモデル、RoTS-7BとRoTS-32Bは、GUI-RobustEvalおよび従来のGUIベンチマークの両方で顕著な性能向上を示した。特筆すべきことに、RoTS-32BはOSWorldで最先端の性能を達成し、成功率47.4%およびAll-Pass@4スコア33.8%を記録した。これは、長期的な誤り回復能力の向上が堅牢性と全体的な性能の両方に寄与することを示唆している。我々のコードはhttps://github.com/AlibabaResearch/RoTSで公開されている。
LLMエージェントは、プロンプト、スキル、記憶、ツールといった編集可能な外部ハーネスを中心に構築されたシステムとしてますます展開されており、これらはモデルパラメータを変更することなくタスク実行を形成する。ハーネス自己進化は、実行証拠からこれらのハーネスを更新することによって、そのようなエージェントを適応させる。しかし、タスク解決におけるモデルの基本能力が、ハーネス自己進化におけるその能力を予測するかどうかは依然として不明である。すなわち、どのモデルが有用なハーネス更新を生成し、どのモデルが実際にその恩恵を受けるのか?我々は2つのハーネス自己進化能力を分析する:(i) ハーネス更新能力、すなわち実行証拠から有用な永続的ハーネス更新を生成する能力、(ii) ハーネス恩恵能力、すなわちタスク解決中に更新されたハーネスから恩恵を受ける能力。分析により2つの知見が明らかになった。第一に、ハーネス更新能力は基本能力に対して平坦である:異なる能力階層のモデルが生成するハーネス更新は、驚くほど類似した改善をもたらす。Qwen3.5-9Bの更新でさえ、Claude Opus ~4.6と同等の改善を示す。第二に、ハーネス恩恵能力は基本能力に対して非単調である:低能力階層のモデルは更新されたハーネスからほとんど恩恵を受けず、中能力階層のモデルが最も恩恵を受け、高能力階層のモデルは中能力階層よりも恩恵が少ない。我々は低能力階層における低い改善を2つの失敗モードに起因づける:低能力階層のモデルは関連するハーネス成果物を活性化できないか、または活性化してもそれらに忠実に従うことができない可能性がある。これらの知見は、能力予算を進化させるものではなくタスク解決エージェントに投資し、エージェント訓練においてハーネスの呼び出しと長期指示追従を目標とすることを示唆する。我々のソースコードはhttps://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolutionで公開されている。
LLMエージェントは、会話型チャットボットから実世界のワークスペースにおける運用ツールへと進化している。ローカルエージェンティックハーネスにおいて、LLMはファイルの読み書き、ツールの呼び出し、セッションをまたいだワークスペース状態の再利用が可能である。こうした機能は実用性を高める一方で、攻撃者にとって新たな攻撃対象領域を露呈する。攻撃者はファイルやツールの出力内にプロンプトインジェクションを埋め込むことができる。エージェントはこの隠された命令を読み取り、保存し、後で実行する可能性がある。このマルチステップトロイ攻撃パラダイムでは、個々のステップ自体は悪意があるようには見えないが、これらのステップは総じて信頼できないテキストを永続的な制御コンテンツに変え得る。しかし、既存の防御策は各ステップを個別に検査することが多い。その結果、明らかな有害行為をブロックできても、バックドアを仕込む初期の書き込み操作を検出できない。この脅威を明らかにするため、我々はローカルエージェンティックハーネスにおけるマルチステップトロイ攻撃を特定するベンチマーク、ClawTrojanを導入する。GPT-5.4を用いたOpenClow型シミュレーションワークスペースにおいて、ClawTrojanは95.5%の攻撃成功率(ASR)を達成する一方、既存の単一ターンプロンプトインジェクション攻撃は同一モデルでASRがほぼゼロとなる。この脅威に対処するため、我々はDASGuardを提案する。これは機密性の高いローカルファイル内の制御的なテキストをスキャンし、その出所を追跡し、信頼できるソースに由来しない制御コンテンツを除去する。我々の結果は、DASGuardが実行時の攻撃ブロックとワークスペースへのサニタイズ済みコミットを組み合わせることで、強力な動的防御を実現することを示している。
ビデオ視覚言語モデル(VLM)は、長期的な時間範囲やストリーミング設定での使用が増加しているが、ほとんどのビデオエンコーダは依然として時空間自己注意に依存しており、フレーム数に応じて計算量とレイテンシが二次的に増加する。既存の効率化手法はスケーラビリティを向上させるものの、例えば過度なフレーム・トークンの削除や粗い注意近似により、完全自己注意と比較して精度が低下することが多い。本稿では、StateKVを提案する。これは、固定容量で重要度に基づくリカレント状態を介してフレーム間コンテキストを伝達し、それとデコード用の完全なフレーム単位キャッシュを併用することで、学習済みの長尺ビデオVLMを線形時間のビデオプリフィルに適応させる推論時手法である。3つの長尺ビデオベンチマークと、3つのファミリー・複数スケールにわたる7つのモデルにおいて、StateKVは完全自己注意に近い性能を維持し、ファインチューニングやアーキテクチャ変更なしに、支配的なスライディングウィンドウ/最近接ベースのストリーミング近似を一貫して上回る。また、StateKVはビデオプリフィルコスト(FLOPs)を削減し、固定計算予算内でより大規模なモデルを実行することで、より高い精度を実現する。これらの結果は、スケーラブルな長尺ビデオ理解への実用的な一歩を示唆する。
近年、動画生成モデルの進歩により、制御可能な世界モデルの急速な発展が促進されている。しかし、長期的な推論の下で細粒度の時空間一貫性を維持することは依然として主要な課題である。本研究では、明示的な3D記憶や粗いフレームレベルの暗黙的モデリングを超え、一貫した世界生成のための細粒度で学習可能かつスケーラブルな記憶を提案する。まず、ナイーブな学習可能記憶アーキテクチャが長期的な外挿において抱える2つの基本的制約、すなわち計算非効率性と注意分散を特定する。注意分散の体系的分析を通じて、我々はDecMemを提案する。これは、効率的な細粒度アクセスによるグローバルな履歴へのアクセスを実現するスパースグローバルメモリと、安定かつ高品質な外挿を実現するアンカードローカルメモリを採用した、分離型記憶アーキテクチャである。大規模な実験により、DecMemが現在の最先端手法を大幅に上回る性能を示すことが実証された。正確かつ効率的な長期記憶を保証し、優れた外挿能力を達成することで、DecMemは高忠実度と一貫性を備えた分単位の制御可能な長時間動画生成を可能にする。
ビジョン・ランゲージ・アクション(VLA)モデルは、ロボットが自然言語の指示に従い多様なタスクにわたって一般化することを可能にするが、実世界展開における信頼性を損なう実行失敗に対して脆弱である。したがって、実行中のそのような失敗を検出することは、身体化システムのロバストな展開にとって極めて重要である。既存の失敗検出手法は、高コストな行動再サンプリングや外部モデルに依存するか、あるいは代替手法として軌跡レベルのラベルをすべてのタイムステップに一律に伝搬させ、局所的な失敗信号を不明瞭にしてしまう。本稿では、VLA失敗検出を粗い教師あり学習問題として定式化するフレームワーク「Hide-and-Seek」を提案する。軌跡間および軌跡内の対照的目的を組み合わせることで、Hide-and-Seekは失敗を示唆する行動を特定し、ステップレベルのアノテーションを一切用いずに軌跡レベルの教師信号のみから時間構造を持つ失敗信号を誘導する。我々は、LIBERO、VLABench、および実世界ロボットプラットフォームにおいて、OpenVLA、π_0、π_{0.5}の3つの代表的なVLA方策を用いて評価を行った。本手法は、コンフォーマル予測の下で実用的な精度–適時性トレードオフを達成し、最先端のマルチタスク失敗検出性能を示すとともに、既知タスクと未見タスクの両方に良好に一般化する。
近年の研究では、視覚言語行動(VLA)ポリシーに明示的な中間推論を組み込む試みが始まっている。しかし、身体性制御においてテキストベースの連鎖思考(CoT)は適切ではない。すなわち、無関連あるいは弱いテキスト情報が行動予測を妨げる一方、自己回帰的なテキスト復号はリアルタイムのクローズドループ実行に対して過大な遅延を生じさせる。本稿では、正確かつ低遅延なVLAポリシーのための視覚的中間推論フレームワークであるVISUALTHINK-VLAを提案する。我々のブートストラップ哲学は、効果的な視覚的思考によって行動を導くことにある。すなわち、VISUALTHINK-VLAは、空間的精度を保持しつつ復号オーバーヘッドを回避するコンパクトな視覚的エビデンスインターフェースを通じて行動予測をブートストラップする。さらに、性能と効率を向上させるため、VISUALTHINK-VLAは選択的ルーティング機構を採用し、視覚的エビデンストークンを学習することで、高容量の特化を維持しながら低遅延な推論を実現する。また、監視と監査のためのリソースとしてVisualEvidence-Kitを導入する。これはVisualEvidence-Agentを中心として構築され、754.7k件のVLA命令からなるVisualEvidence-Setを作成し、経路の監視と反事実的忠実性テストを可能にする。複数のベンチマークおよび実ロボット評価を通じて、VISUALTHINK-VLAはほとんどのベンチマークで最高の成功率を達成するとともに、推論強化ベースラインが持つ数秒のレイテンシをサブ秒領域に短縮する。例えば、BridgeData V2では、ECoTのステップ遅延8.377秒を0.367秒に削減し、22.8倍の高速化を実現している。
空間推論は、実世界環境に展開される視覚言語モデル(VLM)にとって基本的な能力である。しかし、視覚観察は3次元世界の本質的に限られた表現であり、遮蔽により物体が不可視になったり、遠近法によって幾何学的特性が誤解を招く可能性がある。それにもかかわらず、既存の空間推論ベンチマークは通常、観察が十分かつ信頼できると仮定し、モデルが正しい答えを生成するかどうかに焦点を当てており、質問に答えられない場合を認識できるかどうか、またどのような追加観察が必要かを評価していない。本研究では、この仮定に挑戦し、制御された評価フレームワークであるSpatialUncertainを構築し、2種類の観察上の課題を導入する:(1)対象情報を隠す遮蔽、(2)誤解を招く視覚的手がかりを生み出す遠近法の曖昧性である。各構成において、クリーンな観察下では回答可能であるが、導入された課題下では回答を控える必要がある空間質問を設計する。さらに、モデルが遠近法の曖昧性を解消するためにどの追加視点が有効かを特定できるかも評価する。先端的なオープンソースおよびクローズドソースの多様なVLMを用いた結果から、一貫した2つの失敗モードが明らかになった。第一に、モデルは過信した回答をする傾向があり、視覚的証拠が不完全または誤解を招く場合でも空間推論タスクを解決しようと試み、遮蔽下では平均正解率約30%、遠近法の曖昧性下では10%未満であった。第二に、追加視点が利用可能であっても、一部のモデルは信頼できる証拠を提供する視点の特定においてランダムチャンスに近い性能を示した。これらの知見は、答えの正しさを超えて、モデルがいつ回答を控えるべきか、どのように信頼できる証拠を求めるべきかを評価することの必要性を訴えている。
ビデオアウトペインティングは、動画の元の空間範囲を超えて妥当な視覚コンテンツを生成する技術であり、多様な表示形式への動画適応において重要な役割を果たす。このようなユースケースを実現するには、長尺シーケンスにわたって大規模な空間的外挿を可能にする必要がある。しかし、既存手法のほとんどはこれらの課題のいずれか一方しか扱っておらず、またグローバルな時空間一貫性を保証する明示的な仕組みを欠いているため、顕著な限界がある。本論文では、長尺シーケンスのための高解像度ビデオアウトペインティングフレームワークHL-OutPaintを提案する。本手法は粗密(coarse-to-fine)戦略に従い、二段階のパイプラインを採用する。まず、動画全体の大域構造と主要な動きを捉えた低解像度表現である大域粗ガイダンス(Global Coarse Guidance, GCG)を構築する。GCGは単純なダウンサンプリングではなく、疎な大域キーフレームと局所的時間窓を結合し、サンプリング中に情報を交換する新規な大域-局所フレームスワッピング機構により構築される。これにより、GCGは長期的な構造的一貫性と短期的な時間的ダイナミクスの両方を統一された表現に符号化する。この表現に導かれ、HL-OutPaintは高解像度アウトペインティングを実行し、空間的に詳細で時間的に一貫したコンテンツを生成する。大域構造モデリングと微細な合成を分離することで、本フレームワークは広い空間拡張と長尺動画シーケンスに対して安定かつ整合性のある生成を実現する。広範な実験により、HL-OutPaintは広い空間的外挿と長尺動画シーケンスを含む困難なシナリオにおいて既存手法を凌駕することを示す。
本稿では、DEMON(リアルタイム拡散エンジン)を提案する。これは、ノイズ除去プロセスを生きた楽器として演奏可能にするコントロールサーフェスである。すなわち、出力全体にわたってフレームごとに多数のパラメータを整形できる広範さと、各コントロールがノイズ除去ループ内のその位置に応じた速さで効果を発揮する応答性を兼ね備える。ACE-Step 1.5と、TensorRTアクセラレーションを採用したStreamDiffusionのリングバッファアーキテクチャ上に構築され、単一の民生用GPU(RTX 5090)上で、60秒の音楽に対して最大毎秒12.3件のデコーダ完了を達成する。また、プロダクションリング深度4では毎秒11.3世代の生成を実現する。これらのレートでは、ノイズ除去パラメータがライブパフォーマンスのコントロールとして実用可能となるが、リングバッファは要求ごとの変更をその排出レート(最低Sノイズ除去ステップ)でのみ伝搬する。これに対し、我々は4つのメカニズムを導入する。(1) スロットごとの異種ノイズ除去スケジューリング:各リングバッファスロットが独自のタイムステップスケジュールを保持するため、移動するノイズ除去スライダーを追跡する際に、処理中のキューを破棄することなく対応できる。これに対し、上流のグローバルスケジュール設計ではキューを再構築して破棄する必要がある。(2) 共有可能なステップごとの可変状態:各ソルバーステップで参照される任意のパラメータが次のティックで即座に効果を発揮し、リングバッファの排出をバイパスする。(3) フレームごとのソースブレンディング:標準的なSDE再ノイズステップに対するサンプリング時の制御であり、スカラーノイズ除去スケジューリングを補完するフレーム単位の変換強度軸を提供する。(4) ウィンドウ化VAEデコード:受容野解析を活用し、デコード速度を8.0倍に高速化する。これらを統合することで、ストリーミング拡散パラメータを、その開始遅延と収束遅延に基づいて4つの伝搬クラスに分類する。
人間は複数物体が存在するシーンにおいて、どの色がどの形状に属するかを容易に判別できる。この能力は概念結合として知られている。CLIPなどの視覚言語埋め込みモデルは結合に困難を示す。すなわち、個々の概念を認識できるものの、どの概念がどの物体を構成するかを表現できない。CLIPはクロスモーダル検索において概念の袋モデルのように振る舞うものの、物体情報は画像埋め込みとテキスト埋め込みからそれぞれ復元可能である。我々はこの緊張関係を、概念をシーン埋め込みに写像する結合関数を通じて研究する。シーン埋め込みは物体表現に加法的に分解されることが判明し、これにより単一モーダルのプローブが物体情報を復元できる理由が説明される。しかし、CLIPの結合関数は高複雑性であり、このことが画像エンコーダとテキストエンコーダが未見の概念組み合わせに汎化する共有結合機構を学習することを妨げている可能性が高い。そこで我々は、この限界が本質的なものかどうかを問う。本質的ではないことを示す。制御されたトランスフォーマーモデルをスクラッチから学習させると、十分なデータカバレッジがあれば結合の汎化が生じる。これらのモデルは、概念間の乗法的相互作用によって特徴づけられる低複雑性の結合関数を学習し、系統的汎化を可能にする。コードは https://github.com/oshapio/binding-concepts-complexity で公開されている。
自己教師あり新規視点合成(NVS)は、動画データの豊富さにもかかわらず、現実の動画に基づく学習の脆弱性や、複数ネットワークシステム設計におけるスケーリング挙動の予測困難さにより、スケールアップが依然として困難である。本稿では、カメラ推定、シーン再構成、レンダリングを単一のバックボーンに統合した統一型フィードフォワードトランスフォーマーであるRayDerを提案する。これにより、自己教師ありNVSは適切に設定された単一モデルのスケーリング問題へと転換される。最小限の動的状態を外乱因子として扱うことで、時間変動するコンテンツを吸収し、制約のない実世界動画での安定した学習を可能とする。重要な点として、RayDerは静的シーンNVSを目標タスクとして維持する:動的コンテンツは、動的シーン(4D)NVSのように再構成されるのではなく、スケーラブルな教師信号としてのみ活用される。複数のモデルサイズとデータの桁違いの規模において、RayDerはデータおよび計算量に対して明確な冪乗則スケーリングを示し、静的シーンデータ混合を凌駕する。多数のベンチマークにおいて、RayDerは最先端の教師あり手法と競合する強力なゼロショット・オープンセット性能を達成する。プロジェクトページ: https://compvis.github.io/rayder
近年の進歩により、自己回帰方式におけるリアルタイム対話型動画生成が大幅に改善された。しかし、既存のほとんどの数ステップ自己回帰動画生成手法は、対応する多ステップの教師モデルから蒸留されることが多く、4ステップのサンプリング設定をデフォルトとしており、デプロイ時にかなりのレイテンシが発生し、サンプリングステップ数をさらに削減した場合、特にワンステップ設定では深刻な品質低下を招く。軌跡型の整合性蒸留手法は動きの弱い動画を生成することが多く、一方、Self-ForcingなどのDMDベースの手法はぼやけたフレームを生じる傾向がある。この課題に対処するため、我々はOne-Forcingを提案する。これはDMD目的関数に補助的なGAN損失を追加するシンプルかつ効果的な手法であり、高品質で効率的なワンステップ動画生成を実現する。VBenchでの実験では、One-Forcingが総合スコア83.76を達成し、ワンステップ因果動画生成手法の中で最先端の性能を確立し、強力な多ステップ手法と競合する水準を維持していることを示している。さらに、ワンステップのフレーム単位自己回帰生成が、チャンク単位モデルの訓練コストのわずか3分の1で安定して達成可能であり、これは従来の手法では成功しなかった設定であることを示す。
スキル、すなわち大規模言語モデル(LLM)向けに精緻化された構造化ワークフロー指示は、現実世界の下流タスクにおけるエージェントの性能向上のための重要なメカニズムとして注目されている。しかし、オープンソースのスキルエコシステムが急速に拡大する中で、異なるモデルやエージェントフレームワークがスキルとどのように相互作用するのか、スキルの品質をどのように評価するのか、また、実用的なコストパフォーマンスのトレードオフの下でユーザーがどのようにスキルを選択すべきかは、依然として明確ではない。本稿では、スキル拡張型エージェントシステムとスキル自体の両方を対象とした自動評価フレームワークであるOpenSkillEvalを提案する。OpenSkillEvalは静的ベンチマークに依存するのではなく、プレゼンテーション生成、フロントエンドWebデザイン、ポスター生成、データ可視化、レポート生成という5カテゴリの下流アプリケーションにわたって、進化する実世界の成果物から現実的なタスクインスタンスを自動構築する。さらに、コミュニティから寄せられたスキルを収集・整理し、統一されたタスク設定の下で制御可能な比較を可能にする。600以上の動的に生成されたタスクインスタンスと30のオープンソーススキルを用いて、最先端のモデルとエージェントフレームワークの体系的な評価を実施した。結果として、スキルの存在が効果的なスキル利用を保証するわけではないこと、スキル拡張の利点は基盤となるモデルとエージェントフレームワークの両方に強く依存すること、そして、多くの公開され広く利用されているスキルが、スキルを持たないベースエージェントを一貫して上回るわけではないことが明らかになった。これらの知見は、動的かつタスクに根ざした評価の必要性を強調し、LLMエージェント向けスキルの設計、選択、展開に関する実践的な洞察を提供する。追加のケーススタディやベンチマークリソースはプロジェクトウェブサイト(https://yingjiahao14.github.io/OpenSkillEval-Web/)で公開されている。
現在、自律的な言語モデルエージェントの監視は、主に表層的な行動に依存している。しかし、エージェント集団が人間の監視を回避する目的で新しい言語を発明した場合、何が起こるのだろうか。本研究では、Moltbook上で出現する言語を調査する。そのために、Moltbook Filesデータセットを基盤とし、ルールベースのヒューリスティック(約6000件の一致)に続いてゼロショット分類(518件を保持)からなる二段階アプローチを適用する。得られたカテゴリには、トークン効率(166件)、新しい自然言語(106件)、監視回避(59件)が含まれる。我々は定量的分析と定性的分析の両方を実施する。結果は、監視を回避するための新しい言語を提案する投稿は、DeepSeek-3.2によって他のカテゴリよりも整合性が低いと判断され、また、すべての言語が言語の説明のみから他の言語モデルによって文脈内で学習可能であることを示している。さらに、事例を手動で調査すると、自然言語に隠しメッセージを埋め込むなど、驚くほど洗練されたステガノグラフィープロトコルが明らかになった。これらの言語の考案における自律性の程度については確信を持てないものの、我々の結果は、エージェント集団の制御を維持するためには、表層行動の監視だけでは近いうちに不十分になる可能性があるという証拠を補強するものである。
言語モデルアライメントのための強力な報酬モデル(RM)の構築は、人間のアノテーションや判定モデルから多様で信頼性の高い選好データを取得するコストと難しさによってボトルネックとなっている。ポリシーが静的なRM訓練を超えて進化するにつれて、これは劇的に悪化する。そこで、我々はSAVE(Value-Anchored On-policy feedbackによる自己教師あり報酬モデル改善)を提案する。これは、価値関数を用いてオンポリシー応答をフィードバックとして評価し、オンポリシーRM訓練を行うフレームワークである。SAVEは、報酬で評価されたオンポリシー応答を、適応的アンカーとして機能するプロンプト固有の価値ヘッドを用いて教師信号に自然に変換する。それはRMアドバンテージを計算し、曖昧なサンプルをフィルタリングして、対照目的関数を介してRMを更新する。SAVEによるRM訓練強化の有効性は、6つの多様なベンチマークにわたる厳密な実証評価によって強く検証されている。それは全データセットで優れた結果を達成し、3つのRLアルゴリズム(GRPO、RLOO、GSPO)と異なるポリシーバックボーンにわたって一貫した改善を維持している。
自律型AI研究エージェントは、仮説生成から査読に至る研究パイプラインを自動化することで、科学的発見を加速することを目指している。しかし、既存のベンチマークは、時間と計算リソースを費やす前に大規模言語モデルが研究アイデアの方法論的実現可能性を判断できるかという根本的なボトルネックをほとんどテストしていない。我々は、ICLR投稿から再構築された1,099件の機械学習研究提案からなる厳選ベンチマークSoundnessBenchを導入する。これには査読者の健全性サブスコアがラベル付けされており、元の論文に対して監査が行われている。SoundnessBenchは、論文全体の査読結果を正確に予測するものではなく、回復可能な提案段階の健全性のベンチマークとして解釈されるべきである。12の最先端LLMにわたって、我々は広範な楽観バイアスを発見した。標準的なプロンプトでは、モデルは低健全性の提案を頻繁に健全と評価する一方、攻撃的なプロンプトは誤りを偽陽性から偽陰性へと大きくシフトさせる。公開コーパスの汚染、論文識別フレーズ、表面的特徴、および人間による監査品質に対する追加の統制は、この行動が単一の交絡因子では説明されないことを示唆している。我々の結果は、現在のLLMが科学的厳密性のための独立した第一ゲート評価者としてまだ信頼できないことを示している。
強化学習(RL)は拡散大規模言語モデル(dLLMs)の方策(ノイズ除去器)を改善するために使用できるが、方策尤度の難処理性によって妨げられる。主流で効率的な手法群は、標準的なRLにおける尤度を、ランダムにマスクされた系列から推定されるエビデンス下界(ELBO)で置き換える。事前学習との整合性は高いものの、これらの手法はELBOを尤度の代理として使用することで学習-推論のミスマッチによるバイアスを導入し、性能を低下させる可能性がある。本研究では、逆KL正則化RLの閉形式最適解から導出されるアドバンテージ誘導自己教師から、dLLMのノイズ除去器を直接蒸留するガイド付きノイズ除去器自己蒸留(GDSD)を提案する。GDSDは、正規化不要の目的関数を用いてdLLMのノイズ除去器のロジットを教師のものに一致させ、RLを尤度不要の自己蒸留に帰着させることで、TIMバイアスを回避する。最近のELBOベースの手法は、異なる蒸留ダイバージェンスを適用した事例として現れるが、GDSDが回避する診断可能な病理を伴う。LLaDA-8BおよびDream-7Bを用いた計画、数学、コーディングのベンチマークにおいて、GDSDはより安定した訓練報酬ダイナミクスで先行のELBOベース手法を一貫して凌駕し、最大+19.6%のテスト精度向上を達成した。これらの結果は、ELBO尤度代理に依存しない直接的なノイズ除去器自己蒸留が、dLLMに対してより安定で効果的なRL手順を提供できることを示唆している。コードは https://github.com/GaryBall/GDSD で入手可能である。
本論文は、エージェント型AIにおける次の主要なボトルネックが、モデルスケーリングのみならずシステムスケーリングであること、すなわち基盤モデルを中心とした監査可能、永続的、モジュール型、かつ検証可能なアーキテクチャの設計にあることを研究する。我々はこの変化を「ハーネスのスケーリング」と呼び、基盤モデルを取り巻く構造化された実行レイヤを、設計・評価・最適化の第一級の対象として扱う。近年の大規模言語モデルにより、エージェントはツールの使用、情報検索、記憶保持、長期的ワークフローの実行が可能になったものの、評価は依然としてモデル中心であり、エージェントを最終タスクの成功に還元し、記憶、検索、ツール使用、オーケストレーション、検証、ガバナンスを二次的な実装詳細として扱う傾向がある。この枠組みはますます不十分となっている。なぜなら、エージェントの性能は、基盤モデル、記憶基盤、コンテキスト構築器、スキルルーティング層、オーケストレーションループ、検証・ガバナンス層の相互作用から創発するからである。これらの要素は総体としてエージェントハーネスを形成し、モデルの能力を長期的なエージェント行動へと変換する。我々は、ハーネスのスケーリングを三つの中核的なボトルネック、すなわちコンテキストガバナンス、信頼できる記憶、動的スキルルーティング、そしてこれらを調整・制約するオーケストレーション機構とガバナンス機構を通じて研究する。さらに、一回限りのタスク成功を超えて、軌跡品質、記憶衛生、コンテキスト効率、通信忠実度、検証コスト、時間経過に伴う安全な進化を測定する、ハーネスレベルのベンチマークに関する研究計画を概説する。議論を具体化するために、我々はCheetahClaws(https://github.com/SafeRL-Lab/cheetahclaws)を開発した。これはPythonネイティブの参照ハーネスであり、Claude CodeやOpenClawと比較する。我々の主たる主張は、エージェント型AIの将来の進歩は、より強力な基盤モデルと同程度にシステム設計に依存するという点である。
メディア圧縮規格は、レート歪み複雑性のトレードオフにおいて頭打ち状態に達しており、ロボティクス、ウェアラブル、リモートセンシングといったアプリケーションにおいて、高コストなAI認識処理をクラウドにオフロードする能力が制限されている。DNNベースのコーデックは圧縮効率を向上させるものの、利用可能なビットレートの大きな変動に容易に適応できず、リアルタイム符号化には高価で消費電力の大きいGPUが必要となり、低コストまたはリソース制約のあるプラットフォームでの使用が不可能になるという代償を伴う。これらの制約に対処するため、我々は、フル入力(Full input)を用いて射影追跡エンコーダ(Projection Pursuit Encoder)を介して残差出力(Residual output)を予測する、新しい自動符号化フレームワーク(FRAPPE)を提案する。FRAPPEの符号化目的関数は、潜在チャネルを重要度に応じて自然に並べ替え、オーバーヘッドゼロの可変レート符号化を可能にする。RNNベースの学習コーデック(エンコーダが前の再構成の残差を消費する)やRVQスタイルのコーデック(コードブックを逐次的に適用する必要がある)とは異なり、FRAPPEの解析パスは、独立した入力射影からなる、容易に並列化可能なDAG(有向非巡回グラフ)である。FRAPPEを用いて、可変レートRGB画像コーデック(FRAPPE-Image)を構築し、標準的な画像コーデックとのレート歪み複雑性のトレードオフを評価した。高い圧縮率(約0.1 bpp)において、FRAPPE-ImageはAVIFよりも高い知覚品質を提供し、かつ47倍高速な符号化を実現し、CPUのみでリアルタイム1080p、30fpsの符号化が可能である。我々のコードと事前学習済みモデルは以下で入手できる:https://github.com/UT-SysML/FRAPPE
視覚的に基づいた思考連鎖(Visually Grounded Chain-of-Thought, CoT)は、マルチモーダル大規模言語モデル(MLLMs)における細粒度認識を強化する有望なパラダイムとして登場したが、推論フェーズにおけるその有効性は未だ十分に探求されていない。本研究では、推論中に視覚的に基づいたCoTにおいて明示的なオブジェクトボックスを必須とすることが、明示的な視覚的根拣なしで推論を行う標準的なテキストCoTと比較して、しばしば性能を低下させることを経験的に発見した。我々は、視覚的定位能力がテキストCoTに内在化され得る一方で、必須の明示的根拠付与がモデルの本来の目的である回答予測に不要な干渉をもたらすという仮説を立てる。この問題に対処するため、我々はInternalizing Visually Grounded Reasoning(iVGR)、すなわち定位能力をテキスト推論プロセスに移行させる新規の強化学習フレームワークを提案する。我々はデュアルストリーム学習戦略を採用し、提案する一貫性報酬を通じてテキストストリームを高品質な視覚的根拠付きストリームに整合させることで、推論中に明示的な根拠なしで正確に定位できるようにする。大規模な実験により、本手法が細粒度ベンチマークにおいて既存のベースラインを大幅に上回り、ツール支援推論ワークフローをサポートする柔軟性を維持することを実証する。
コネクタベースの動画統合モデルは、指示に基づく動画合成において高い能力を示しているが、大規模な高忠実度生成器を統合学習ループに組み込むことは計算的に非現実的であり、達成可能な視覚品質に制約が生じる。そこで我々は、Lumos-Nexusを提案する。これは学習効率の高い統合動画生成フレームワークであり、強い推論駆動型生成能力の開発を促進しつつ、視覚的忠実度を大幅に向上させる。Lumos-Nexusは2段階の設計を採用する。1) 学習時には、軽量生成器のみを理解ブロックと整合させ、推論駆動型の意味制御を入力として受け取る方法を学習する。2) 推論時には、統合的プログレッシブ周波数ブリッジング(UPFB)を導入し、共有潜在空間内で生成を段階的に高容量の事前学習済み生成器に引き渡すことで、粗密精細化を実現し、推論品質を損なうことなく高忠実度動画を生成する。推論駆動型動画生成のベンチマークにおける不足を補うため、我々はVR-Benchを導入する。これは、モデルが推論された意図を一貫性のある意味的に整合した動画コンテンツに変換する能力を評価するものである。広範な実験により、Lumos-NexusはVBenchにおいて視覚的リアリズムと時間的一貫性で大幅な向上を達成し、VR-Benchにおいても強力な推論ベースの生成性能を示すことが実証された。コードとモデルはhttps://jiazheng-xing.github.io/nexus-lumos-home/で公開している。
大規模言語モデルは、ユーザーや環境が繰り返し軽量なフィードバックを提供できるマルチターン対話設定において、ますます展開されている。残念ながら、このような振る舞いの最適化は実際上、深刻なジレンマを呈する。すなわち、オンライン強化学習はマルチターンの動的な相互作用を効果的に扱えるが、更新のたびに完全な修正軌跡を生成するコストがかかるため極めて高価であるのに対し、オフライン教師ありファインチューニング(SFT)は効率的であるものの、分布シフトや行動崩壊に悩まされる。この課題に対し、我々はDRIFT(Decoupled Rollouts and Importance-Weighted Fine-Tuning)を新たに提案する。これは、KL正則化されたRL目的関数が重要度重み付き教師あり学習と等価であるという理論的洞察を実運用化するフレームワークである。DRIFTは、固定参照ポリシーからオフライン対話軌跡をサンプリングし、リターンベースの重要度重みを導出し、得られたデータセットに対する重み付きSFTによりポリシーを最適化することで、ロールアウトと最適化を分離する。実験的には、DRIFTが標準的な教師ありファインチューニングの訓練効率と単純性を維持しつつ、マルチターン強化学習ベースラインと同等またはそれを上回る性能を達成することを示す。コードはhttps://github.com/2020-qqtcg/DRIFTで入手可能である。
機械学習の忘却評価は構造的に偏っている。因果的・関係的知識を探るWhy型の質問は、CounterFactでは0.06%未満、ZSREでは0.6%未満、TOFU、MUSE、WMDP-Cyberでは1.3%未満を占めるに過ぎない。このほぼゼロに等しい比率は、因果的知識において失敗する手法であっても総合的に高いスコアを獲得し得ることを意味し、その失敗はバランスの取れた評価なしには検出できない。我々は5WBENCHを提案する。これは、5Wカテゴリ(Who、What、When、Where、Why)ごとに1,000サンプル、合計5,000サンプルからなるバランスの取れたベンチマークであり、因果的忘却の失敗を初めて定量化可能にする。5WBENCHを用いて、Why型質問において高い忘却性能と高い保持性能を同時に達成する既存のベースラインは存在しないことを示す。すなわち、攻撃的な忘却は保持知識を劣化させる一方、保守的な手法は因果的事実を忘却できない。Why型の困難性は、マルチホップ推論連鎖(Why項目の44%に対し、その他は2%以下)と、平均40.1トークンからなる回答スパンにおける勾配希薄化に起因する。我々はMAAT(Multi-phase Adapter-Aware Targeted Unlearning)を提案する。これは、LoRAアダプター重みに作用する3フェーズフレームワークであり、勾配投影上昇、SVDランク次元刈り込み、タスクベクトル否定、およびハイブリッドKL隠れ状態保持修復を組み合わせる。MAATは、Why型因果的知識に対して高い忘却性能と高い保持性能を同時に達成する初めての手法であり、忘却-保持パレートフロンティア上に新たな動作点を確立する。我々はコードを公開する。
物体カウントは、汎用ビジョンモデルの急速な進歩にもかかわらず、ドメイン特化型データセットやタスク定式化の間で断片化されたままである。既存のカウントモデルは、群衆、車両、細胞、作物、リモートセンシング物体などのシナリオに特化して調整されることが多く、そのためカテゴリ、視覚ドメイン、物体スケール、密度分布を横断した汎化に苦慮している。本論文では、ドメイン横断的なテキスト誘導型物体カウントを研究する。この設定では、モデルが画像と自然言語クエリを入力として受け取り、その基数がカウントを与えるインスタンスに基づくターゲット点集合を返す。この定式化は、カテゴリ条件付きカウントと解釈可能な空間位置特定を統一する。この設定を支援するために、我々は多様な公開データソースを統一ベンチマークに再編成したクロスドメイン大規模物体カウントデータセットCLOCを構築した。CLOCは6つの視覚ドメイン(一般シーン、リモートセンシング、病理組織学、細胞顕微鏡、農業、微生物学)をカバーし、約22万枚の画像、619カテゴリ、1500万の物体インスタンスを含む。CLOCに基づき、我々はテキスト誘導型物体カウントのための汎用モデルCount Anythingを提案する。カウントモデルを支配する密度マップベース手法とは異なり、Count Anythingは離散インスタンス点を採用し、二重粒度のインスタンス列挙を実行する。領域レベル疎カウンタは大きく疎なターゲットに対する物体レベルのアンカーを提供し、一方ピクセルレベル密カウンタは密な点予測を通じて小さく密集し弱い境界を持つターゲットを扱う。点中心の監視戦略により異種アノテーションからの学習が可能となり、補完的カウント融合が両方のカウンタをパラメータフリー方式で結合する。広範な実験により、Count Anythingが高い精度とマルチドメイン汎化を達成し、既存のオープンワールドカウント手法を凌駕することが示される。コードは https://github.com/Mengqi-Lei/count-anything で入手可能である。
トランジットネットワークの設計には、多くの逐次的な路線延長の決定が必要となるが、その品質は完全なネットワークが構築された後でなければ評価できないことが多い。この遅延フィードバックの課題は、交通路線ネットワーク設計問題(TRNDP)の中核に位置しており、路線間の相互作用は誤解を招きやすい。局所的には有用に見える延長が、乗り換えのボトルネックを生み出したり、重複する冗長性を発生させたり、全体的な輸送能力を低下させる可能性がある。シミュレータからの遅延フィードバックの下で路線構築を導くために、我々はAlphaTransitを導入する。これは都市規模のバスネットワーク設計のための探索ベースの計画フレームワークである。AlphaTransitはモンテカルロ木探索(MCTS)とニューラルポリシー・バリューネットワークを組み合わせる。ポリシーは路線延長を提案し、バリューは下流の設計品質を推定し、探索はこれらの予測を用いて各決定を洗練する。これにより、探索木内でシミュレータのロールアウトを実行することなく、路線構築中の決定時の先読みを実現する。我々はAlphaTransitを、現実的な道路トポロジーと国勢調査に基づく需要を用いた新しいBloomington TRNDPベンチマークにおいて、複合需要設定と全交通需要設定の下で評価する。Bloomingtonネットワークでは、AlphaTransitは両方の需要設定で最高のサービス率を達成し、それぞれ54.6%と82.1%に達した。探索なしの強化学習と比較すると、これらはサービス率で9.9%と11.4%の向上に相当し、学習によるガイダンスなしのMCTSと比較すると、それぞれ2.5%と11.2%の向上に相当する。これらの結果は、学習によるガイダンスとMCTSを組み合わせることが、交通ネットワーク設計においてどちらか一方のみを使用するよりも効果的であることを示唆している。我々のコードとデータはhttps://github.com/poudel-bibek/AlphaTransitで公開されている。
近年のフィードフォワード3D再構成手法は、ポイントマップを予測し、グローバルな3D幾何形状を驚くほど良好に推定する。しかしながら、それらの予測は依然として不正確な局所表面幾何形状を示しており、これは質的には明らかに観察できるものの、一般的な評価指標には弱くしか反映されない。これらの誤差を評価においてより明確にするため、我々は近傍の3D予測から誘導される局所表面の方向を評価するポイントマップ法線指標を導入する。これらの誤差を低減するため、我々は2つの相補的な構成要素を提案する: 深度正規化された3D有限差分を教師するポイント勾配マッチング損失、および特徴量を段階的にアップサンプリングし、局所特徴量混合に近傍注意(Neighborhood Attention)を用いる近傍注意デコーダ(NAD)である。8つのゼロショット単眼幾何形状ベンチマークにおいて、我々のモデルSurGeは、グローバルポイントマップのAbsRelで最良の平均順位を達成し、局所ポイントマップおよびポイントマップ法線評価を一貫して改善する。
大規模視覚言語モデル(LVLMs)の登場により、動画理解能力は大幅に向上した。しかし、既存のベンチマークは、主に動作分割、分類、キャプション生成、検索といった粗粒度タスクに焦点を当てている。さらに、これらのベンチマークは、家庭用物体、動物、人間などのように言語的に容易に識別できるエンティティに依存することが多く、複雑で実環境の動画シナリオへの適用性が制限されている。一方、家具組み立てや調理など多くの応用では、動画の段階的な細粒度の時空間理解が必要であるが、既存のベンチマークでは十分に評価されていない。このギャップを埋めるため、我々は家具組み立てタスクに特化した新規ベンチマーク「Flat-Pack Bench」を導入する。本ベンチマークは、組み立て動作の時間的順序付け、組み立て状態の時間的局所化、部品の嵌合理解、追跡といった微妙なタスクにおいてLVLMsを評価する。その方法として、多肢選択問題に、細粒度の質問に対する参照として該当部分を強調表示した視覚的プロンプトを組み合わせて用いる。実験の結果、最先端のLVLMsは細粒度の時空間推論に著しく困難を抱えており、動画からの時間情報の効果的な活用の限界、追跡能力の低さ、物理的接触のような空間的相互作用の理解不足が明らかとなった。
拡散言語モデルは、マスクされたトークン系列を反復的にノイズ除去することでテキストを復号し、どの位置を復号するかの選択が推論時の中心的な判断となる。ほとんどの訓練不要の復号戦略は、高信頼度の位置が復号可能であると仮定し、位置選択にモデルの信頼度を用いる。本研究では、信頼度が完全非自己回帰(完全非AR)復号を誤誘導する場合を調査することで、この仮定を再検討する。EOTトークンは高い信頼度を得ることがあり、不完全な生成を引き起こす。サフィックスアンカーを挿入することでこの問題を緩和できるが、アンカー近傍で局所的な過信頼が生じ、アンカー隣接トークンが早期に復号される原因となる。これらの問題に対処するため、我々はサフィックスアンカー信頼度調整法を提案する。これは、応答の完了を促進するために短いサフィックスアンカーを挿入し、復号の進行に応じてアンカー近傍の信頼度を調整する、簡素な訓練不要の手法である。これにより、サフィックスアンカリングの応答完了の利点を維持しつつ、アンカー隣接トークンの時期尚早な復号を低減する。テキストのみの推論、視覚言語推論、コード生成の各ベンチマークにおいて、我々の手法は信頼度ベースの完全非AR復号を一貫して向上させ、明示的なEOT抑制を凌駕し、完全非AR生成の並列復号の利点を維持する。
標準的なグラフィカルな仮定の下では、目的変数のマルコフ境界は、他のすべての特徴量を冗長にする最小の特徴量集合である。この境界が観測されれば、目的変数はテーブル内の残りの部分と条件付き独立になる。この性質は、モデルが必要とする列を正確に特定するため、表形式データの予測にとって魅力的な対象である。しかし、現代の回帰モデルは依然として全特徴量集合で学習されている。本研究では、SCM3K(40から1000の特徴量を持ち、6つのSCMファミリーからなる3,450タスクの合成SCMベンチマーク)において、6種類の回帰モデルを用いて評価した場合に、マルコフ境界が予測に真に有用であるかを問う。その答えは理論が示唆するよりも複雑である。回帰モデルを真のマルコフ境界に制限すると、予測が大幅に改善されることが多く、特徴空間が大きく疎になるほどその改善は大きくなる。しかし、因果発見によって境界を復元し、その復元されたマスク上で学習するという自然なパイプラインは、期待された成果をもたらさない。既存の推定手法は、境界が最も効果を発揮する領域に到達する前に計算予算を使い果たしてしまい、たとえ実行できたとしても、全特徴量集合を上回ることは滅多にない。我々はこの原因を3つに特定する。第一に、発見手法は予測ではなく構造復元を最適化している。第二に、偽陰性と偽陽性は予測コストに非対称な影響を及ぼす。第三に、正確な境界は、全特徴量を凌ぐ特徴量集合のうちの一つに過ぎない。そして、これらの事実が予測整合的な特徴選択と、因果構造を学習する表形式モデルに対して何を示唆するかを論じる。
細胞特化型データセットで学習された細胞インスタンス分割モデルは、分布外の細胞タイプに対して深刻な性能低下を示す一方、対話型基盤モデルはインスタンス単位のプロンプティングによりこの問題を克服するが、数百から数千の密に配置されたインスタンスを含む病理組織画像にはコストが法外に高い。我々は、対話型セグメンテーションをインスタンス単位のO(N)からタイプ単位のO(T)へとシフトさせる新たなパラダイム「Group Prompting」を導入する。ここでは、細胞タイプごとに1回のクリックでそのタイプの全インスタンスをセグメント化できる。我々の重要な知見は、Segment Anything Model (SAM)の凍結画像エンコーダが、プロンプトが与えられる前からその特徴空間において同一タイプの細胞をクラスタ化していることである。この特性を活用し、我々は訓練不要のフレームワーク「Chain-of-Prompts (CoP)」を提案する。これは、ユーザーの単一クリックを、(1)マルチスケールエンコーダ特徴に対するノンパラメトリックゲーティングにより信頼できる同一タイプの位置を特定し、(2)最も空間的に離れた信頼点を次のプロンプトとして選択して被覆範囲を最大化する、という再帰的拡張を行う。3つの細胞タイプ注釈付きベンチマークにおいて、タイプごとに1クリックのCoPはインスタンス単位の性能の90%以上を維持し、追加訓練なしで完全教師あり手法を凌駕する。4つの形態的に均質なベンチマークでは、単一クリックで99%以上を維持する。プロジェクトページ: https://shjo-april.github.io/Chain-of-Prompts/
インタラクティブビデオ世界モデルは、ユーザーによるカメラ操作に応じてビデオをチャンク単位で逐次生成し、リアルタイムゲームシミュレーション、仮想シーン探索、具現化AIトレーニングなどの応用を可能にする。しかし、長いインタラクティブな軌跡への拡張は、コンテキストメモリの増大、二次関数的な注意機構の計算量、繰り返しのデノイジングステップにより、実用的なコストが極めて高くなる。本稿では、インタラクティブビデオ世界モデルにおける訓練不要の推論高速化フレームワーク「Light Interaction」を提案する。我々の重要な洞察は、インタラクションが軌跡に依存した適応計算を自然に可能にする点にある。すなわち、新規探索時には検索された空間メモリを破棄し、局所的な潜在ダイナミクスに応じて時間的コンテキストを調整し、カメラが既知の領域を再訪する際には初期ステップのモデル出力を再利用できる。この洞察に基づき、Light Interactionは適応的コンテキスト管理、デノイジングキャッシュ高速化、そしてハードウェア・ソフトウェア協調設計による融合Tritonカーネルを用いた3Dブロックスパース注意機構を組み合わせる。HY-WorldPlayおよびMatrix-Game-3.0での評価により、Light Interactionはモデルの再訓練を必要とせず、同等の画質を維持しながら最大2.59倍の速度向上を達成する。
リモートセンシング合成画像検索(RSCIR)は、参照画像とテキスト修飾語を組み合わせた合成クエリを用いて、大規模な衛星画像アーカイブ内での検索を可能にする。RSCIRは、対象を絞った検索意図を表現するための柔軟なインターフェースを提供するが、現代の合成手法の地球観測(EO)画像への転用可能性と、実運用のEOワークフローへの関連性は、まだ十分に調査されていない。我々は、統一されたベンチマークと応用指向の研究を通じて、このギャップに対処する。まず、代表的な合成画像検索手法を6つのビジョン言語バックボーンを用いてPatternCom上で体系的に適応・評価し、標準化されたプロトコルの下で、バックボーン、合成戦略、クエリタイプにわたるそれらの振る舞いを分析する。次に、xView2-CIRを導入する。これは災害・被害監視のための変化中心データセットであり、検索はシーン同一性と目標の災害後状態に条件付けられる。我々の結果は、学習不要の合成手法がEO検索に対して強力かつスケーラブルなベースラインを提供する一方、変化中心検索は属性ベース検索とは異なる課題、特にシーン同一性を保持する必要性に起因する課題を呈することを示している。全体として、本研究はRSCIRの実用的なベンチマークを確立し、合成検索をリモートセンシング画像検索、アーカイブ探索、変化解析のための補完的ツールとして位置づける。データセットとコードは https://github.com/billpsomas/rscir で入手可能である。
条件付き人間動作生成は、コンピュータビジョンとロボティクスにおける根本的な課題であり続けている。近年の目覚ましい進歩にもかかわらず、現在の手法は固定されたモダリティ構成やタスク固有のアーキテクチャに制約されることが多く、クロスモーダルな相互作用やマルチモーダル条件下での合成におけるスケーリング則はほとんど未探求のままである。主要なボトルネックは、大規模なモダリティ整合動作データの不足であり、多様な制御信号に対する汎化を制限している。本研究では、5000時間以上の動作と320万シーケンスから成り、テキスト、音声、音楽、軌道といったマルチモーダルアノテーションが精密に整合された、大規模高品質データセットOmniHuMoを導入する。OmniHuMoを活用し、Residual FSQに基づく動作トークナイザとスケーラブルなマスク付きモデリングトランスフォーマーを組み合わせた統合マルチモーダルフレームワークAnyMoを提案する。AnyMoは任意のモダリティ組み合わせの下で高品質な動作合成を実現する。広範な実験により、AnyMoが空間的およびスタイル的属性の両方に対して柔軟な制御を提供しつつ、高忠実度の合成を達成することが示された。
無人航空機(UAV)を高度道路交通システム(ITS)に統合することにより、交通監視における広域視認性が得られるものの、スケーラブルな展開は軌道断片化によって妨げられる。これは、複数UAVの視野(FOV)間で車両識別の永続性が失われる現象である。最先端のフレームワークは、単一ドローンの画像に対する局所的な軌道抽出と安定性の最適化に優れているが、多くの場合、孤立したデータサイロとして機能し、断片化された軌道を生成するため、起終点推定などのネットワークレベルでの分析が不可能となる。本論文では、グローバルな識別永続性を処理するように設計されたリアルタイムマルチカメラ・マルチビークル追跡(MCMT)システムを提案する。直下視における外観ベースの再同定(Re-ID)の視覚的曖昧性と計算コストに対処するため、軽量なトポロジーベースの時空間ハンドオーバ機構を導入する。YOLO11 と ByteTrack を活用した高スループットの並列パイプラインを実装し、同時に複数の 4K ストリームを処理する。我々の主な貢献は、幾何学的重なりと仮想車線分割を利用し、FIFO キューを介して識別ハンドオーバを予測的に管理する決定論的キューイングベースのマッチングアルゴリズムである。交差点や合流交通を含む複雑な都市環境での実験結果は、連続交通流において 99.8% のハンドオーバ成功率(HOSR)を示し、Re-ID ベースライン(74.1%)を大幅に上回るとともに、エッジ展開の実現可能性を実証した。ソースコードは https://github.com/JYe9/multi-camera-multi-vehicle-tracking-system で入手可能である。
ロボット、自動運転車、具現化エージェント、エッジコパイロットなどの物理AIシステムは、クラウドLLMサービスとは異なる推論ワークロード、すなわちシングルストリーム、バッチ1の自己回帰デコードを実行することが多い。この方式では、1台のロボット、カメラフィード、またはユーザーセッションが次のトークンを待機する。このワークロードは通常、メモリ帯域幅律速であると説明される。各デコードステップではモデル重みとアクティブなKVキャッシュがストリームされるため、レイテンシはピークHBM帯域幅に比例すると考えられる。本稿では、この説明は正しいが不完全であることを示す。我々は、7〜8Bクラスの3つのGQAトランスフォーマーについて、4種類のNVIDIA GPU(H100 SXM5、A100-80GB SXM4、L40S、L4)でバッチ1デコードを測定した。コンテキスト長を2048から16384まで評価し、制御されたbf16 SDPA設定のもとで44の有効なセルを生成した。達成されたピークHBM帯域幅の割合は、ピーク帯域幅が高くなるにつれて低下する。代表的なQwen-2.5-7B、ctx=2048のセルでは、L4は分析上のメモリフロアの約81%に達するのに対し、H100はわずか27%にしか達しない。物理AIデコードはメモリ支配的であるが、高速なメモリは比例したレイテンシ向上にはつながらない。我々はこの欠落項をCUDA GraphsのA/B実験で検証する。H100のctx=2048では、CUDA GraphsはN=10の新しいセッション全体でデコードレイテンシを1.259倍改善し、95%ブートストラップ信頼区間は1.253から1.267である。L4では、同じ介入でわずか1.028倍の改善である。これにより、高速GPUでは顕在化するが、低速で帯域幅律速のGPUではほとんど隠れたままとなる起動側のオーバーヘッドが特定される。導入への示唆として、メモリ節約はランタイムがそれを実現した場合にのみ意味を持つ。L4では、bf16デコードはメモリフロアに近い位置にあるが、一般的な量子化パスでは期待される4倍の重みトラフィック削減は達成されない。bnb-nf4は59.36 ms/step、AutoAWQ+Marlinは45.24 ms/stepであり、bf16ベースラインの62.32 msから低下している。GPTQ+ExLlamaV2は、Ada調整済みint4カーネルにより、17.36 ms/stepに達する。
GRPOやDAPOといったグループ優位性に基づく強化学習手法は、数学的推論やテキストから画像への生成など、多様な領域で優れた性能を示してきた。しかし、これらの手法はサンプルレベルの報酬に依存しており、全トークンに対して一様なクレジット割り当てを行うため、トークンレベルの細かな貢献を捉えられないという重要な制約がある。この問題に対処するため、我々はGuidance Contrastive Policy Optimization(GCPO)を提案する。GCPOは、正のプロンプトと負のプロンプトの下でのモデル予測を対比させることで、トークンごとのクレジット割り当てを可能にする新規アルゴリズムである。GCPOはサンプルレベルの優位性を一様に伝達するのではなく、これらの対比的予測間の差に比例したトークンレベルの優位性を割り当てることで、より精密で情報量の多い学習信号を提供する。実験的に、GCPOはテキストから画像への生成においてはテキストプロンプトと整合する視覚領域など、意味的に関連する領域を強調し、連鎖的推論タスクでは推論過程内の重要なキーワードに焦点を当てることが確認された。広範な実験を通じて、GCPOはテキストから画像への生成および連鎖的推論の両ベンチマークにおいてGRPOやDAPOのベースラインを一貫して上回り、離散的な方策学習における汎用的でスケーラブルな最適化戦略としての有効性を示している。
もしAIエージェントが個人に代わって意思決定を行うならば、その決定はユーザーと一致していなければならない。本稿では、システムが個人の解釈をどの程度忠実に捉えているかを測定するために、表現精度を導入する。解釈層は行動仕様として操作化される。我々の参照実装は、個人のデータを解釈パターンに積極的に圧縮し、それを言語モデルへのコンテキストとして提供する。行動仕様の評価は、校正された5人の審査員からなるLLMパネルによって評価される保持された行動予測のプロトタイプベンチマークで行う。これを独立して、また、完全な生コーパス、完全な抽出事実、および4つの商用メモリシステム(Mem0、Letta、Supermemory、Zep)を含む様々なコンテキスト条件との組み合わせでテストする。 14の公開自伝コーパスにわたって、行動仕様は表現精度を総合的に向上させ、モデルの回避をほぼ排除する。生コーパスが提供するものの大部分を、約25分の1のコンテキストコストで回復する。行動仕様は、事前学習ベースラインに関係なく、被験者を共通の予測レベルに引き上げる。したがって、絶対ポイントでの向上はベースラインが最も低い場合に最大となり、関連する集団は事前学習で適切に表現されていないすべての人であることを示唆する。向上は解釈が必要な質問において最大であり、解釈層を提供することで、抽出事実や生コーパスでは実現できないモデルの振る舞いが可能になる。逆に、想起が必要な質問では、この層が妨害となる場合がある。 結論として、表現精度は想起とは異なり、人間-AIの整合性はユーザーがどれだけ正確に表現されているかに依存する。表現精度はその整合性をテスト可能にする。
行動模倣による視覚運動ポリシーの学習では、通常、人間のオペレータが収集した熟練者のデモンストレーションを模倣する。しかし、人間が自然に行うデモンストレーションには、断続的な急な動き、ポーズ、動作のジッターなどの高周波ノイズが本質的に含まれている。これらの生の軌跡を直接模倣するようにポリシーを訓練すると、モデルがこれらの準最適な行動を継承することは避けられない。この病理は拡散ベースのポリシーで特に顕著であり、反復的なノイズ除去ステップが、意味のある微細な詳細を犠牲にして不注意に高周波アーティファクトを増幅し得る。これらの限界に対処するため、我々は新しい周波数ベースのアルゴリズムを提案し、暗黙的なスペクトル操作と滑らかな動作生成を可能にする。本手法である周波数誘導オペレータ(FGO)は、拡散ポリシーの生成プロセスを導き、ノイズを含むサンプルを拡大するスペクトル帯域を持つ中間サブ周波数多様体を通して徐々に駆動する。5つのベンチマークから15のロボット操作タスクで検証した結果、FGOは動作の滑らかさと時間的一貫性を向上させ、タスク実行に必要な詳細を保持しながら優れた性能を達成した。プロジェクトウェブサイト:https://henrywjl.github.io/frequency-guidance-operator/
これまでの多変量時系列予測に関する研究は、複雑な全体モデルの開発に焦点が当てられてきた。本研究では、その影響をより粒状的な構成要素レベルで理解する方向への転換を提唱する。我々はTSCOMPを提案する。これは、深層予測手法をその核となる細粒度の構成要素——系列前処理、符号化戦略、特定および大規模時系列モデルを含むネットワークアーキテクチャ、最適化手法——に体系的に分解する初の大規模ベンチマークである。制約付き直交実験計画法と広範な評価を用いて、異なるバックボーン、データ特性、およびそれらの相互作用にわたる構成要素の有効性を明らかにする多視点分析を実施する。本ベンチマークは洞察を提供するだけでなく、20,000を超えるモデル-データセット評価からなる細粒度の性能コーパスを構築し、自動構成要素選択の学習を支援することで、新しいデータセットに対するゼロショットモデル構築を可能にする。実験により、コーパス駆動型アプローチはその単純さにもかかわらず、最先端手法を一貫して上回り、我々の評価設計の妥当性を実証するとともに、体系的な構成要素選択が手動で設計された複雑なアーキテクチャを凌駕することを確認した。すべてのコードと性能コーパスはhttps://github.com/SUFE-AILAB/TSCOMPで公開されている。