翻訳付きの日次キュレーションされたAI研究論文
メモリ埋め込みは、OpenClawのようなメモリ拡張システムにおいて重要であるが、その評価は現在のテキスト埋め込みベンチマークでは十分に検討されていない。既存のベンチマークは従来の文書検索に焦点を狭く当てており、断片的で文脈依存性が高く時間的に隔たった情報を含む長期的なメモリ検索タスクをモデルが処理する能力を評価できていない。この問題に対処するため、我々は長期的メモリ埋め込みベンチマーク(LMEB)を提案する。これは、複雑で長期的なメモリ検索タスクを処理する埋め込みモデルの能力を評価する包括的フレームワークである。LMEBは22のデータセットと193のゼロショット検索タスクを網羅し、エピソード記憶、対話記憶、意味記憶、手続き記憶の4つのメモリタイプに分類される。これらにはAI生成データと人手注釈データの両方が含まれる。これらのメモリタイプは抽象度と時間的依存性が異なり、現実世界の多様な課題を反映したメモリ検索の異なる側面を捉えている。我々は数億から百億パラメータ規模の15の広く使用されている埋め込みモデルを評価した。結果は以下のことを示している:(1)LMEBは適切な難易度を提供する(2)大規模モデルが常に優れているわけではない(3)LMEBとMTEBは直交性を示す。これは、あらゆるメモリ検索タスクで卓越した性能を発揮する普遍的なモデルが分野としてまだ確立されていないこと、および従来の文書検索での性能が長期的メモリ検索に一般化しない可能性を示唆している。要約すると、標準化され再現性のある評価フレームワークを提供することで、LMEBはメモリ埋め込み評価における重要なギャップを埋め、長期的で文脈依存的なメモリ検索を扱うテキスト埋め込み技術のさらなる進展を推進する。LMEBはhttps://github.com/KaLM-Embedding/LMEBで公開されている。
視覚的実体追跡は人間に備わった生得的認知能力であるが、Vision-Language Model(VLM)にとっては依然として重大なボトルネックとなっている。この欠陥は既存の動画ベンチマークでは視覚的ショートカットによってしばしば見えにくくなっている。我々はVET-Benchを提案する。これは視覚的に同一の物体を特徴とし、時空間的連続性のみを通じた追跡を必要とする合成的診断テストベッドである。実験結果から、現在の最先端VLMはVET-Benchにおいて偶然レベルかそれに近い性能しか示さず、根本的限界が明らかになった:静的フレームレベルの特徴への過度な依存と、時間経過に伴う実体表現の維持の失敗である。状態追跡問題との関連性を理論的に分析し、中間監督なしでは表現力の制約から、固定深度のTransformerベースVLMが識別不能な物体の追跡において本質的に限界があることを証明する。この問題に対処するため、Spatiotemporal Grounded Chain-of-Thought(SGCoT)を提案する:物体軌道を明示的中間状態として生成する手法である。Molmo2の物体追跡能力を活用し、合成テキストデータのみによるファインチューニングでアライメントを図ることでSGCoT推論を誘導する。本手法はVET-Benchにおいて90%を超える最先端精度を達成し、VLMが外部ツールなしで動画シェルゲーム課題をエンドツーエンドで確実に解決できることを実証する。コードとデータはhttps://vetbench.github.io で公開している。
我々は、テキストとグラフィックを統合されたテキスト表現に共同で解析する文書解析パラダイム「Multimodal OCR(MOCR)」を提案する。従来のOCRシステムがテキスト認識に注力しグラフィカル領域を切り出された画素として残すのに対し、我々の手法「dots.mocr」はチャート・図表・表・アイコンなどの視覚要素を第一級の解析対象として扱い、要素間の意味的関係を保ちながら文書を解析する。本手法には以下の利点がある:(1)テキストとグラフィックの両方を構造化出力として再構築し、より忠実な文書再構成を実現;(2)多種多様な文書要素に対するエンドツーエンド学習を支援し、テキストと視覚コンポーネントの意味的関係をモデルに活用可能に;(3)従来廃棄されていたグラフィックを再利用可能なコードレベル監督に変換し、既存文書に埋め込まれたマルチモーダルな教師信号を解放。 このパラダイムを大規模に実用化するため、PDF・レンダリング済みウェブページ・ネイティブSVG資産からなる包括的データエンジンを構築し、段階的な事前学習と教師ありファインチューニングを通じてコンパクトな30億パラメータモデルを学習した。dots.mocrを2つの視点で評価:(1)文書解析ベンチマークでは、OCR Arena EloリーダーボードでGemini 3 Proに次ぐ2位、既存オープンソース文書解析システムを凌駕し、olmOCR Benchで83.9の新たなSOTAを達成;(2)構造化グラフィック解析では、画像→SVGベンチマークにおいてGemini 3 Proを上回る再構成品質を実現し、チャート・UIレイアウト・科学図版・化学図式で強力な性能を発揮。これらの結果は、マルチモーダル事前学習向け大規模画像→コードコーパス構築へのスケーラブルな道筋を示す。コードとモデルはhttps://github.com/rednote-hilab/dots.mocr で公開。
近年、マルチモーダルモデリングにおける最先端のトピックとして、単一モデル内での視覚的理解と生成の統合が挙げられます。しかし、これら2つのタスクは互いに適合しないデコーディング方式と視覚表現を必要とするため、共有特徴空間での共同最適化は容易ではありません。本研究では、Cheersを提案します。これは、パッチレベルの詳細を意味表現から分離することで、マルチモーダル理解における意味の安定化と、ゲート付き詳細残差による画像生成の高忠実度化を実現する統合マルチモーダルモデルです。Cheersは以下の3つの主要コンポーネントを含みます:(i) 画像潜在状態を符号化・圧縮し、効率的なLLM条件付けのための意味トークンに変換する統合ビジョントークナイザ、(ii) テキスト生成のための自己回帰デコーディングと画像生成のための拡散デコーディングを統合するLLMベースのトランスフォーマー、(iii) 視覚的意味を最初にデコードし、その後ビジョントークナイザからの意味ゲート付き詳細残差を注入して高周波コンテンツを精緻化するカスケードフローマッチングヘッド。主要ベンチマークでの実験により、Cheersが視覚理解と生成の両方において先進的なUMMを凌駕または同等の性能を発揮することが実証されました。またCheersは4倍のトークン圧縮を達成し、高解像度画像の符号化と生成をより効率的に実現します。特に、CheersはGenEvalおよびMMBenchベンチマークにおいてTar-1.5Bを上回る性能を示し、訓練コストはわずか20%で済んでおり、効果的かつ効率的(すなわち4倍のトークン圧縮)な統合マルチモーダルモデリングを実現しています。今後の研究のため、すべてのコードとデータを公開予定です。
近年のオーディオビジュアル統合拡散モデルは、高い生成品質を実現しているものの、双方向アテンションの依存関係による高レイテンシが課題となり、リアルタイム応用が妨げられていました。本研究では、オフラインの双方向拡散モデルを高品質なストリーミング自己回帰生成器に蒸留する初のフレームワーク「OmniForcing」を提案します。しかし、このような二重ストリーム構造に対して単純に因果的蒸留を適用すると、モダリティ間の極端な時間的非対称性とそれに伴うトークンの疎性により、深刻な学習不安定が生じます。我々は、非対称ブロック因果アラインメントとゼロ切り捨てグローバルプレフィックスを導入し、マルチモーダル同期のずれを防ぐことで、本質的な情報密度格差に対処します。さらに、因果シフト時の極度のオーディオトークン疎性による勾配爆発は、Identity RoPE制約を備えたオーディオシンクトークン機構によって解決されます。最後に、結合自己強制蒸留パラダイムにより、長時間のロールアウト中に生じる累積的なクロスモーダル誤差をモデルが動的に自己補正できるようにします。モダリティ非依存のローリングKVキャッシュ推論スキームにより、OmniForcingは単一GPU上で約25 FPSの状態-of-the-artストリーミング生成を実現し、双方向教師モデルと同等のマルチモーダル同期性と視覚品質を維持します。プロジェクトページ: https://omniforcing.com
オンライン動画大規模言語モデル(VideoLLM)は、応答性の高いリアルタイムインタラクションを支える上で重要な役割を果たす。既存手法はストリーミング知覚に焦点を当てているが、同期された論理的推論ストリームを欠いている。しかし、テストタイムスケーリング手法を直接適用すると、許容できない応答遅延が発生する。このトレードオフに対処するため、我々はストリーミング動画理解の新しいパラダイムであるVideo Streaming Thinking(VST)を提案する。これは「見ながら考える」メカニズムをサポートし、ストリーミング中の入力動画クリップに対する推論を活性化する。この設計は、LLMの推論遅延を動画再生時間に分散させることで、リアルタイム応答性を維持しつつ、タイムリーな理解と一貫性のある認知を改善する。さらに、オフラインVideoLLMを因果的ストリーミング推論に構造的に適応させるVST-SFTと、マルチターン動画対話環境における自己探索を通じたエンドツーエンドの改善を提供するVST-RLを統合する包括的なポストトレーニングパイプラインを導入する。加えて、動画知識グラフを用いて高品質なストリーミングQAペアを生成し、エンティティ・関係性に基づいたストリーミングChain-of-Thoughtにより、複数証拠に基づく推論と動画ストリームへの持続的注意を強化する、自動化されたトレーニングデータ合成パイプラインを考案する。大規模な評価により、VST-7Bがオンラインベンチマーク(例:StreamingBenchで79.5%、OVO-Benchで59.3%)で強力な性能を発揮することが示された。一方、VSTはオフラインの長編または推論ベンチマークにおいても競争力を維持する。Video-R1と比較して、VSTは15.7倍高速に応答し、VideoHolmesで+5.4%の改善を達成し、様々な動画理解タスクにおいて高い効率性と強力な汎化性能を示す。コード、データ、モデルはhttps://github.com/1ranGuan/VSTで公開予定である。
高性能なソフトウェアエンジニアリング(SWE)エージェントの訓練には、反復的なコード編集、テスト実行、ソリューション改良のための動的フィードバックループを提供する、大規模で実行可能かつ検証可能な環境が不可欠です。しかし、既存のオープンソースデータセットは規模とリポジトリ多様性に限界があり、産業界のソリューションは非公開のインフラで不透明なため、多くの学術研究グループにとって高い参入障壁となっています。本論文ではPython向けSWEエージェント訓練における最大規模の完全透明型フレームワーク「OpenSWE」を提案します。12.8k以上のリポジトリにまたがる45,320個の実行可能Docker環境を包含し、すべてのDockerfile、評価スクリプト、インフラを完全オープンソース化して再現性を確保しています。 OpenSWEは64ノード分散クラスター上で展開されたマルチエージェント合成パイプラインを通じて構築され、リポジトリ探索、Dockerfile構築、評価スクリプト生成、反復的テスト分析を自動化しています。規模面だけでなく、各環境の本質的難易度を特徴付け、解決不能または難易度不足のインスタンスをフィルタリングし、学習効率を最大化する環境のみを保持する品質重視のフィルタリングパイプラインを提案します。環境構築に89.1万ドル、軌道サンプリングと難易度考慮型選別にさらに57.6万ドルを投じ、総投資額約147万ドルで約9,000の品質保証環境から約13,000の精選軌道を生成しました。 大規模実験によりOpenSWEの有効性を検証:OpenSWE-32BとOpenSWE-72BはSWE-bench Verifiedで62.4%、66.0%を達成し、Qwen2.5シリーズにおいてSOTAを確立しました。さらに、SWE特化訓練はドメイン外でも顕著な改善をもたらし、数学的推論で最大12ポイント、科学分野ベンチマークで5ポイントの向上を達成しながら、事実想起能力の劣化を招きませんでした。
視覚からコードへのタスクでは、モデルがチャート、表、SVGなどの構造化された視覚入力を、高い視覚忠実性で実行可能または構造化された表現に再構築する必要があります。近年の大規模視覚言語モデル(LVLM)は教師ありファインチューニングにより強力な結果を達成していますが、強化学習は報酬信号の不整合により依然として困難な課題です。既存の報酬はテキストベースの規則に依存するか、粗い視覚埋め込みの類似度に基づいており、いずれも細かな視覚的差異を捉えられず、報酬ハッキングの影響を受けやすい問題があります。本研究では、レンダリングされた視覚空間で直接ビジョン・トゥ・コードの品質を評価する、細粒度で解釈可能かつタスク非依存のフィードバックを提供するマルチモーダル生成報酬モデル「Visual Equivalence Reward Model(Visual-ERM)」を提案します。Visual-ERMを強化学習に統合することで、Qwen3-VL-8B-Instructはチャートからコードへのタスクで+8.4向上し、表とSVG解析でも一貫した改善(平均+2.7、+4.1)を示し、反射と修正によるテスト時スケーリングも強化されます。さらに、構造化視覚データにおける細粒度画像間差異評価のベンチマーク「VisualCritic-RewardBench(VC-RewardBench)」を導入し、8BパラメータのVisual-ERMがQwen3-VL-235B-Instructを決定的に上回り、先進的なクローズドソースモデルに迫る性能を達成しました。我々の結果は、細粒度の視覚的報酬監督がタスク特異性に関わらず、ビジョン・トゥ・コード強化学習において必要かつ十分であることを示唆しています。
マルチモーダル大規模言語モデル(MLLM)は、GUI操作などの視覚的ワークフローを実行するためにますます利用されている。このようなワークフローでは、次のステップが検証済みの視覚的構成条件(例:「権限ダイアログが表示され、かつインターフェースの色が緑色の場合、『許可』をクリックする」)に依存し、プロセスが分岐したり早期終了したりする可能性がある。しかし、この能力は十分に評価されていない。既存のベンチマークは、浅い構成や独立した制約に焦点を当てており、深く連鎖した合成的条件を評価するものではない。本論文では、視覚に基づく深い合成的推論のためのベンチマークMM-CondChainを提案する。各ベンチマークインスタンスは多層の推論チェーンとして構成され、各層には、複数のオブジェクト、属性、関係から構築され、視覚的証拠に基づいた非自明な合成的条件が含まれる。正しく答えるためには、MLLMは画像を詳細に知覚し、各ステップで複数の視覚要素について推論し、結果として生じる実行パスを最終結果まで辿らなければならない。このようなワークフロースタイルのデータを拡張性を持って構築するため、我々はエージェント的な合成パイプラインを提案する。Plannerが合成的条件の層ごとの生成を調整し、検証可能なプログラム的中間表現(VPIR)が各層の条件が機械的に検証可能であることを保証する。その後、Composerがこれらの検証済みの層を完全な指示文に組み立てる。このパイプラインを用いて、自然画像、データチャート、GUI軌跡の3つの視覚領域にわたるベンチマークを構築した。様々なMLLMを用いた実験では、最も強力なモデルでもPath F1で53.33%に留まり、困難なネガティブケースや、深度や述語の複雑さが増すにつれて性能が急激に低下することが確認された。これは、深い合成的推論が依然として根本的な課題であることを示している。
テストタイムスケーリングはLLMエージェントの信頼性向上における主要なパラダイムとなっているが、現在のアプローチは計算資源を豊富にあるものとして扱い、冗長なステップや行き詰まり軌道に対してトークンやツールの予算を浪費させる。既存の予算考慮手法は、高コストなファインチューニングを必要とするか、実行途中で介入できない大雑把な軌道レベルのヒューリスティクスに依存している。本論文では、Budget-Aware Value Tree (BAVT) を提案する。これは単一のLLMバックボーン内で、ステップレベルの価値推定に導かれた動的探索木としてマルチホップ推論をモデル化する、訓練不要な推論時フレームワークである。もう一つの重要な革新は、残り資源比率をノード価値に対する自然なスケーリング指数として用いる、予算条件付きノード選択機構である。これにより、予算が枯渇するにつれて、広範な探索から貪欲な活用へと、原理に基づいたパラメータ不要の遷移を実現する。LLMの自己評価における過信傾向に対処するため、BAVTは絶対的な状態品質ではなく相対的な進捗を評価する残差価値予測器を採用し、情報のない冗長なツール呼び出しを確実に枝刈りする。さらに、明示的な有限予算境界の下で、BAVTが確率1-ε以上で終端回答に到達するという理論的な収束保証を提供する。2つのモデルファミリーにわたる4つのマルチホップQAベンチマークでの大規模評価により、BAVTが並列サンプリングベースラインを一貫して上回ることを実証した。特に、厳しい低予算制約下でのBAVTは、ベースラインが4倍の資源配分で達成する性能を凌駕し、知的な予算管理が単純な計算資源のスケーリングを根本的に上回ることを立証した。
大規模言語モデル(LLM)の普及が進むにつれ、AI科学者は、アイデア生成と実験実行といった専門的な役割の連携を必要とする複雑なエンドツーエンドの科学的発見タスクを遂行できるようになってきた。しかし、現在の最先端AI科学者システムの多くは、静的な人手設計のパイプラインに依存しており、蓄積された対話履歴に基づいた適応ができていない。その結果、これらのシステムは有望な研究方向を見落としたり、失敗した実験を繰り返したり、実現不可能なアイデアを追求したりする。この問題に対処するため、我々は永続的メモリと自己進化を通じて研究戦略を継続的に改善する、進化型マルチエージェントAI科学者フレームワーク「EvoScientist」を提案する。EvoScientistは3つの専門エージェントで構成される:科学的アイデア生成を行う研究者エージェント(RA)、実験の実装と実行を行う技術者エージェント(EA)、そして過去の対話から得られた知見を再利用可能な知識として抽出する進化管理エージェント(EMA)である。EvoScientistは2つの永続的メモリモジュールを備える:(i)上位ランクのアイデアから実現可能な研究方向を要約し、過去に失敗した方向を記録する「構想メモリ」、(ii)コード検索の軌跡と最高性能の実装から導出された効果的なデータ処理およびモデル学習戦略を捕捉する「実験メモリ」である。これらのモジュールにより、RAとEAは関連する過去の戦略を検索でき、時間の経過とともにアイデアの品質とコード実行の成功率を向上させる。実験により、EvoScientistは科学的アイデア生成において7つのオープンソースおよび商用の最先端システムを凌駕し、自動評価および人間評価において、新規性、実現可能性、関連性、明確さの点でより高いスコアを達成した。また、EvoScientistはマルチエージェント進化を通じてコード実行の成功率を大幅に改善し、エンドツーエンドの科学的発見における永続的メモリの有効性を実証した。
Group Relative Policy Optimization(GRPO)は、テキストから画像への生成フローモデルにおける選好調整の強力なフレームワークとして登場した。しかし、単一の条件に対して生成された一群のサンプルを評価する標準的なパラダイムは、サンプル間の関係性の探索が不十分であり、調整効果と性能の上限の両方を制約していることが観察される。この疎な単一視点評価スキームに対処するため、我々は条件空間を拡張して密な多視点報酬マッピングを生成し、関係性探索を強化する新しいアプローチであるMulti-View GRPO(MV-GRPO)を提案する。具体的には、一つのプロンプトから生成されたサンプル群に対して、MV-GRPOは柔軟な条件エンハンサーを利用して、意味的に隣接しつつ多様なキャプションを生成する。これらのキャプションは多視点アドバンテージ再推定を可能にし、多様な意味的属性を捉え、より豊富な最適化信号を提供する。元のサンプル群の、これらの新しいキャプションを条件とした確率分布を導出することで、コストのかかるサンプル再生成を行うことなく、それらを訓練プロセスに組み込むことができる。大規模な実験により、MV-GRPOが最先端手法を上回る優れた調整性能を達成することが実証された。
大規模ビデオ生成モデルは、膨大で多様な視覚データで学習されることで、視覚世界の豊かな構造的・意味的・動的プリオリを内在化している。これらのモデルは印象的な生成能力を示す一方で、汎用視覚学習器としての潜在的可能性は未だ十分に活用されていない。本研究では、この潜在能力を多様な数ショット画像復元タスクに接続するフレームワーク「V-Bridge」を提案する。我々は画像復元を静的な回帰問題ではなく、漸進的な生成プロセスとして再解釈し、ビデオモデルを活用して劣化入力から高精細出力への段階的な精緻化をシミュレートする。驚くべきことに、わずか1,000のマルチタスク学習サンプル(既存の復元手法の2%未満)を用いるだけで、事前学習済みビデオモデルが競争力のある画像復元を実現し、単一モデルで複数タスクを実行可能であり、専用設計されたアーキテクチャに匹敵する性能を発揮する。我々の発見は、ビデオ生成モデルが極限的に少量のデータで活性化可能な強力かつ転移可能な復元プリオリを暗黙的に学習していることを示し、生成モデリングと低レベル視覚の従来の境界に疑問を投げかけ、視覚タスクにおける基盤モデルの新たな設計パラダイムを開拓するものである。
具体化エージェントの急速な進化に伴い、家庭用ロボットの実環境への展開が加速している。しかし、構造化された産業環境とは異なり、家庭空間では予測不能な安全リスクが生じる。知覚遅延や常識知識の欠如といったシステム制限が危険な誤動作を引き起こす可能性がある。現在の安全性評価は、静止画像、テキスト、または一般的な危険要因に限定されることが多く、こうした特定の文脈における動的不安全行動検出を適切に評価できていない。この課題を解決するため、家庭内シナリオにおける不安全行動検出のためのVision-Language Models(VLM)評価ベンチマーク「HomeSafe-Bench」を提案する。本ベンチマークは、物理シミュレーションと高度な動画生成を組み合わせたハイブリッドパイプラインで構築され、6つの機能領域にわたる438の多様な事例と、細粒度多次元アノテーションを特徴とする。さらに、階層型ストリーミング安全監視アーキテクチャ「HD-Guard」を提案する。本アーキテクチャは、高頻度連続スクリーニングを行う軽量FastBrainと、非同期で深層マルチモーダル推論を行う大規模SlowBrainを協調させ、推論効率と検出精度の最適なバランスを実現する。評価実験により、HD-Guardが遅延と性能の優れたトレードオフを達成することを示すとともに、現行のVLMベース安全検出における重要なボトルネックを明らかにする。
拡散モデルは、テキストから画像(T2I)生成アプリケーションにおいて顕著な能力を実証している。高度な生成出力が得られる一方で、特に数百億のパラメータを含む大規模モデルでは、多大な計算オーバーヘッドが課題となっている。先行研究では、ノイズ除去ステップの一部をより小規模なモデルに置き換えても生成品質が維持されることが示されている。しかし、これらの手法は特定のタイムステップにおける計算量の削減にのみ焦点を当てており、1つのタイムステップ内での計算需要の差異を考慮していない。本研究では、生成を編集のように扱う新しいT2I生成パラダイムであるHybridStitchを提案する。具体的には、大規模モデルと小規模モデルの両方を統合的に組み込むハイブリッド段階を導入する。HybridStitchは画像全体を二つの領域に分割する:一方は比較的容易に描画可能な領域であり、小規模モデルへの早期移行を可能とし、他方はより複雑なため大規模モデルによる精緻化を必要とする領域である。HybridStitchは、小規模モデルを用いて大まかなスケッチを構築しつつ、大規模モデルを活用して複雑な領域を編集・洗練させる。評価の結果、HybridStitchはStable Diffusion 3において1.83倍の高速化を達成し、既存の全てのモデル混合手法を上回る速度性能を示した。
マルチモーダル大規模言語モデル(MLLM)はオフラインの映像理解において強力な性能を示すが、その多くはオフライン推論に限定されるか、オンライン推論能力が弱く、継続的に到着する映像ストリームに対するマルチターン対話を困難にしている。既存のストリーミング手法は通常、知覚と生成を交互に行うパラダイムを採用しており、知覚と生成の並行実行を妨げ、ストリームの拡大に伴う早期のメモリ減衰を招くため、長距離依存関係のモデリングが損なわれる。本研究では、マルチターン対話中に連続的なセグメント単位のメモリを保持する、メモリ固定型ストリーミング映像推論フレームワーク「Think While Watching」を提案する。3段階のマルチラウンド思考連鎖データセットを構築し、段階対応型学習戦略を採用するとともに、セグメント単位のストリーミング因果マスクとストリーミング位置エンコーディングにより厳密な因果関係を確保する。推論時には、視聴と思考を重複させ、最適なアテンションバックエンドを適応的に選択する効率的なパイプラインを導入する。単一ラウンド及びマルチラウンドのストリーミング入力プロトコル下で、本手法は優れた結果を示す。Qwen3-VLを基盤として、StreamingBenchでは単一ラウンド精度が2.6%、OVO-Benchでは3.79%向上した。マルチラウンド設定では、出力トークンを56%削減しつつ性能を維持する。コードはhttps://github.com/wl666hhh/Think_While_Watching/ で公開されている。
動画生成モデルの急速な進展にもかかわらず、その出力を複雑なユーザー意図に整合させることは依然として課題である。既存のテスト時最適化手法は、計算コストが高いか、モデル内部へのホワイトボックスアクセスを必要とする場合が一般的である。この問題に対処するため、我々はVQQA(Video Quality Question Answering)を提案する。これは多様な入力モダリティと動画生成タスクに汎化可能な、統合されたマルチエージェントフレームワークである。VQQAは視覚的質問を動的に生成し、その結果得られるVision-Language Model(VLM)の批評を意味的勾配として利用することで、従来の受動的評価指標を、人間が解釈可能で実践的なフィードバックに置き換える。これにより、ブラックボックスな自然言語インターフェースを介した、高効率な閉ループプロンプト最適化プロセスを実現する。大規模な実験により、VQQAが視覚的アーティファクトを効果的に特定・解決し、少数の改良ステップで生成品質を大幅に向上させることを実証した。テキストから動画(T2V)と画像から動画(I2V)の両タスクに適用可能な本手法は、T2V-CompBenchで+11.57%、VBench2で+8.43%の絶対改善を達成し、最先端の確率的探索およびプロンプト最適化技術を大幅に上回る性能を示した。
Transformerベースの大規模言語モデル(LLM)は、自己回帰的な推論における冗長な計算を回避するためにキー・バリュー(KV)キャッシングに依存している。この機構は効率性を大幅に向上させるが、キャッシュサイズは入力系列長に比例して線形的に増大し、長文脈タスクでは迅速にボトルネックとなる。既存の解決策は、推定された重要度スコアに基づいて重要でないと判断されたプロンプトのKVを削除することでこの問題を緩和する。特に、最近の一連の研究は「未来を覗き見る」ことで削除の質を向上させることを提案している。これは、ドラフト生成器が目標モデルの真の応答を近似する代理未来応答を生成し、この代理応答を用いてキャッシュされたKVの重要度をより正確に推定するというものである。しかし、これらのアプローチは計算コストの高いドラフト生成に依存しており、大幅なプリフィリングのオーバーヘッドを導入し、実際の展開における実用性を制限している。この課題に対処するため、我々は明示的なドラフト生成を必要とせずに代理未来応答の強みを活用する軽量な削除フレームワーク、LookaheadKVを提案する。LookaheadKVは、Transformer層にパラメータ効率の良いモジュールを追加し、真の重要度スコアを高精度で予測するように訓練する。我々の設計は、既存の低コストなヒューリスティック手法に匹敵する無視できる実行時オーバーヘッドを保証しつつ、より高コストな近似手法を上回る精度を達成する。様々なモデルにわたる長文脈理解ベンチマークでの大規模な実験により、本手法が様々な長文脈理解タスクにおいて最近の競合ベースラインを性能で凌駕するだけでなく、削除コストを最大14.5倍削減し、Time-to-First-Tokenを大幅に高速化することを実証した。コードはhttps://github.com/SamsungLabs/LookaheadKV で公開されている。
高品質な事前学習データの飽和により、研究の焦点は新規性のある成果物を継続的に生成可能な進化型システムへと移行し、AlphaEvolveの成功をもたらしました。しかし、厳密で定量的な評価手法の不足が、こうしたシステムの発展を妨げています。この課題に取り組むため、我々は古典的認知フレームワークに基づく、コード生成における機械の創造性を評価するベンチマーク「CreativeBench」を提案します。本ベンチマークは、リバースエンジニアリングと自己対戦を利用した自動化パイプラインにより、組み合わせ的創造性と探索的創造性に焦点を当てた二つのサブセット「CreativeBench-Combo」と「CreativeBench-Explore」で構成されます。実行可能コードを活用することで、CreativeBenchは、品質と新規性の積として定義された統一指標により、創造性と幻覚を客観的に区別します。最先端モデルに対する分析により、以下の特徴的な振る舞いが明らかになりました:(1) スケーリングは組み合わせ的創造性を大幅に改善するが、探索には収穫逓減の効果が見られる、(2) 大規模モデルは「スケーリングによる収束」を示し、正答率は向上するが多様性は減少する、(3) 推論能力は組み合わせよりも制約付き探索に主に寄与する。最後に、進化的探索パターンを内部化し、機械の創造性を一貫して向上させるプラグアンドプレイの推論時制御戦略「EvoRePE」を提案します。
オープンワールドにおける具現化エージェントは、長期的なタスクを解決する必要がある。その際の主要なボトルネックは、単一ステップの計画の質ではなく、インタラクション経験がどのように組織化され進化するかである。この課題に対処するため、我々はSteve-Evolvingを提案する。これは非パラメトリックな自己進化フレームワークであり、細粒度な実行診断とデュアルトラックの知識蒸留を閉ループで緊密に結合する。本手法は、経験の定着、経験の蒸留、知識駆動型閉ループ制御の3つのフェーズから構成される。 具体的には、経験の定着フェーズでは、各サブゴールへの試行を固定スキーマ(事前状態、行動、診断結果、事後状態)を持つ構造化された経験タプルとして固化し、多次元インデックス(条件シグネチャ、空間ハッシュ、セマンティックタグなど)とローリング要約を備えた3層の経験空間で組織化する。これにより、効率的かつ監査可能な想起を実現する。帰属分析に十分な情報密度を確保するため、実行層では二値結果を超えた合成的な診断信号(状態差分要約、列挙された失敗原因、連続指標、停滞/ループ検出など)を提供する。 さらに、経験の蒸留フェーズでは、成功した軌跡は明示的な前提条件と検証基準を持つ再利用可能なスキルへと一般化され、失敗は根本原因を捕捉し、サブゴール及びタスク粒度で危険な操作を禁止する実行可能なガードレールへと蒸留される。加えて、知識駆動型閉ループ制御フェーズでは、検索されたスキルとガードレールがLLMプランナーに注入され、診断によってトリガーされる局所的再計画が能動的制約をオンラインで更新する。これにより、モデルパラメータの更新を一切伴わない継続的進化プロセスが形成される。 Minecraft MCUの長期タスクスイートを用いた実験により、静的検索ベースラインに対する一貫した改善が実証された。
スパースアテンションベクトル(SAV)は、視覚言語モデル(VLM)の性能向上を目的とした、教師ありファインチューニングや低ランク適応の優れた訓練不要の代替手法として登場している。SAVの核心は、対象タスクにおいて少数の正確なアテンションヘッドを選択し、モデルの予測に依存するのではなく、それらを分類器として利用する点にある。同様の精神に基づき、我々はVLMの生の活性化をスカラー値の形で直接プローブすることが、多様な視覚的基盤を持つ下流タスクにおいて正確な分類器を生成するのに十分であることを発見した。アテンションベクトルからスカラー活性化へ焦点を移すことで、正確なパラメータの探索空間が劇的に拡大し、最初に生成されたトークンから即座により識別性の高いニューロンを見つけることを可能にする。我々はこのような活性化を「スーパーニューロン(SN)」と呼ぶ。このプロービング設定において、大規模言語モデルの浅い層に十分なSNが出現し、最初に生成されたトークンの段階で、モデルの第一層から極端に早期退出(early exiting)することを可能にすることを明らかにした。元のネットワークと比較して、SNは分類性能を頑健に改善しつつ、最大5.10倍の高速化を達成する。
Vision-Language Model (VLM) に基づく検索モデルは、視覚的文書検索 (VDR) の品質を驚異的な水準にまで高めてきた。しかし、これらのモデルは、文書のインデキシングとクエリのエンコーディングの両方に同一の数十億パラメータ規模のエンコーダを必要とするため、高いレイテンシとGPUへの依存が生じ、たとえテキストのみのクエリであっても同様である。我々は、この設計が不必要に対称的であると考える。すなわち、文書は視覚的に複雑であり強力な視覚的理解を要求する一方で、クエリは単なる短いテキスト文字列に過ぎない。NanoVDR は、このクエリと文書の非対称性を利用し、二つのエンコーディング経路を分離する。具体的には、凍結された20億パラメータのVLM教師モデルが文書をオフラインでインデキシングし、6900万パラメータという小さな蒸留されたテキスト専用の学生モデルが推論時にクエリをエンコードする。鍵となる設計上の選択は蒸留の目的関数である。3つのバックボーンと22のViDoReベンチマークデータセットを用いた6つの目的関数の体系的な比較を通じて、クエリテキストに対するポイントワイズ・コサインアライメントが、ランキングベースやコントラスティブな手法を一貫して上回り、かつ学習時には事前キャッシュされた教師モデルのクエリ埋め込みのみを必要とし、文書処理を全く行わないことを明らかにした。さらに、性能の主要なボトルネックが言語間転移であることを特定し、機械翻訳されたクエリで学習データを拡張するという低コストな手法でこれを解決した。その結果得られた NanoVDR-S-Multi (DistilBERT, 69M) は、教師モデルの品質を95.1%維持し、v2およびv3において DSE-Qwen2 (2B) を性能で上回りながら、パラメータ数は32分の1、CPUクエリレイテンシは50分の1を実現し、総学習コストは13 GPU時間未満である。
合成的シーン再構成は、実世界のビデオから全体的なシーンではなく、オブジェクト中心の表現を作成することを目指しており、シミュレーションやインタラクションに自然に適用可能である。従来の合成的再構成手法は主に視覚的外観を重視しており、実世界シナリオへの汎化能力が限られていた。本論文では、複雑なシーン再構成に向けた「知覚-生成-シミュレーション」パイプラインを実現するフレームワークSimReconを提案する。本手法はまずビデオ入力からシーンレベルの意味的再構成を行い、次に単一オブジェクトの生成を実行し、最後にこれらのアセットをシミュレータ内で組み立てる。しかし、これら3つの段階を単純に結合すると、生成アセットの視覚的信頼性や最終シーンの物理的妥当性に問題が生じ、複雑なシーンでは特に深刻となる。そこで我々は、この問題を解決するため、3段階間を橋渡しする2つのモジュールをさらに提案する。具体的には、視覚的信頼性に重要な「知覚から生成への遷移」に対して、能動的視点最適化を導入する。これは3D空間内で能動的に探索し、単一オブジェクト補完の条件として最適な投影画像を取得する手法である。さらに、物理的妥当性に必須の「生成からシミュレーションへの遷移」に対しては、シーングラフ合成器を提案する。これは実世界の本来的な構成的原理を反映し、3Dシミュレータ内でのゼロからの構築を導く。ScanNetデータセットを用いた大規模実験により、本手法が従来の最先端手法を上回る優れた性能を発揮することを検証した。
言語モデルが混合品質のデータで学習されているにも関わらず、なぜ正しい記述を好む傾向を示すのか? 本研究では「圧縮-一貫性原理」を提唱する:次のトークン予測は、学習データをより短く、内部的に一貫した記述で説明できる仮説を優先する。真実バイアスは、誤った選択肢が構造的に圧縮困難な場合にのみ現れる。この仮説を検証するため、GPT-2スタイルの小規模文字レベルトランスフォーマー(350万~8600万パラメータ)を用い、正誤規則の混合比率を制御した合成数学コーパスで実験を行った。 ランダム誤り設定では、モデルは正しい補完を強く優先した:データ比率が均等な場合の正答率は83.1%、正規則がコーパスのわずか10%の場合でも67.0%を示した。一方、ランダム誤りを数学的に誤った首尾一貫した規則体系に置き換えると、正答率はほぼ偶然レベルに低下した。より自然言語に近い合成世界では効果は弱まるものの(57.7%)、依然として確認された。追加実験では、埋め込み検証ステップによって小規模モデルでも正しさへの選好が回復すること、一貫性規則の増加に伴い正答率が段階的に向上することを示した。 これらの結果は、「真実バイアス」として観察される現象が、本質的な真実指向ではなく、圧縮圧力と内的整合性への選好の副次的効果であることを示唆する。コードとデータはhttps://github.com/Rai220/compression-drives-truth で公開されている。
大規模言語モデル(LLM)は、名前や代名詞などの間接的な手がかりから性別や年齢などの機密属性を推論し、推薦結果にバイアスをもたらす可能性がある。既存の複数の脱バイアス手法は、LLMの重みへのアクセスを必要とし、計算コストが高く、一般ユーザーが利用できない。この課題を解決するため、我々はLLM推薦システム(LLMRecs)における暗黙的バイアスを調査し、プロンプトベースの戦略が軽量かつ使いやすい脱バイアス手法として機能し得るかどうかを探る。本論文では、LLMRecs向けに3つのバイアス対応プロンプト戦略を提案する。知る限り、ユーザーの集団公平性に焦点を当てたLLMRecsにおけるプロンプトベース脱バイアス手法の研究は本研究が初めてである。3つのLLM、4つのプロンプトテンプレート、9つの機密属性値、2つのデータセットを用いた実験により、LLMに公平性を指示する提案手法が、同等の有効性を維持しつつ公平性を最大74%向上させ得る一方、場合によっては特定の人口統計グループを過剰に促進する可能性があることが示された。
多変量時系列異常は、単純な振幅の逸脱ではなく、チャネル間依存関係の変化として現れることが多い。例えば自動運転において、ステアリング指令は内部的に一貫しているが、結果として生じる横加速度から切り離される場合がある。残差ベースの検出器は、柔軟なシーケンスモデルが調整が変化したにもかかわらず信号を妥当に再構築する場合、このような異常を見逃す可能性がある。本論文では、マルチヘッド注意機構のクエリ進化を短期予測可能なプロセスとして扱う教師なし検出器AxonADを提案する。勾配更新による再構築経路と、過去の文脈から将来のクエリベクトルを予測する履歴専用予測器を組み合わせる。これは指数移動平均(EMA)ターゲットエンコーダに対するマスク化予測-ターゲット目的関数により学習される。推論時には、再構築誤差と、最近の時間ステップにおける予測クエリとターゲットクエリのコサイン偏差を測定する尾部集約クエリ不一致スコアを組み合わせる。この二重アプローチにより、振幅レベルの検出を維持しつつ、構造的依存関係の変化に対する感度を提供する。区間注釈付きの独自車載テレメトリデータ、および閾値非依存かつ範囲認識メトリクスを用いたTSB-AD多変量スイート(17データセット、180系列)において、AxonADは強力なベースラインを上回るランキング品質と時間的局在化を実現した。アブレーション研究により、クエリ予測と複合スコアリングが性能向上の主要因であることを確認した。コードはhttps://github.com/iis-esslingen/AxonAD で公開されている。
時系列異常検知システムの評価は、一般的にワークステーションクラスのハードウェア上で制約のない実行条件下で比較される。しかし、車載モニタリングでは、限られたCPU並列性の下で予測可能なレイテンシと安定した動作が要求される。したがって、精度のみを重視した評価ランキングは、実際の導入環境における制約下でどの手法が実用可能かを正しく示さない場合がある。 本研究では、自動車専用テレメトリデータ(異常率約0.022%)および補完的な公開ベンチマークを用いた実証研究として、導入指向の評価プロトコルECoLAD(Efficiency Compute Ladder for Anomaly Detection)を提案する。ECoLADは、機械的に決定された整数のみのスケーリングルールと明示的なCPUスレッド制限を用いて、異種混合の検出器ファミリーに対して単調な計算量削減ラダーを適用し、適用された全ての設定変更を記録する。スループット制約下での動作特性は、目標スコアリングレートを掃引し、(i)目標値を満たすエンティティの割合(カバレッジ)と、(ii)目標値を満たす測定済みラダー設定の中で達成可能な最高のAUC-PRを報告することで特徴付けられる。制約条件の厳しい自動車テレメトリデータでは、軽量な古典的検出器は、スループット全域にわたってカバレッジと検出性能(ランダムベースライン以上の向上)の両方を維持した。一方、いくつかの深層学習手法は、精度が低下する以前に実用可能性を失うことが確認された。
光学画像と合成開口レーダー(SAR)画像間のクロスモーダル船舶再識別(ReID)は、受動的な光学イメージングとコヒーレントな能動的レーダー計測との間に生じる深刻な放射計量の不一致によって、根本的な課題に直面している。既存手法は主に統計的分布の調整や意味的マッチングに依存するが、船舶が幾何学的構造はセンシングモダリティ間で安定した剛体である一方、テクスチャ外観はモダリティに強く依存するという重要な物理的事前情報を見落としがちである。本研究では、幾何学的一貫性を光学-SAR船舶ReIDに体系的に組み込む、構造認識型分離特徴学習ネットワークSDF-Netを提案する。ViTバックボーン上に構築されたSDF-Netは、中間層からスケール不変な勾配エネルギー統計量を抽出し、放射計量変動に対して頑健な表現を固定する構造一貫性制約を導入する。最終段階では、SDF-Netは学習された表現を、モダリティ不変の識別特徴とモダリティ固有の特性に分離する。これらの分離された手がかりは、パラメータフリーの加算残差融合を通じて統合され、識別能力を効果的に強化する。HOSS-ReIDデータセットを用いた大規模な実験により、SDF-Netが既存の最先端手法を一貫して凌駕することを実証する。コード及び学習済みモデルはhttps://github.com/cfrfree/SDF-Net で公開されている。
ユーザの指差しジェスチャに基づく質問の理解と回答は、次世代のエゴセントリックAIアシスタントにとって不可欠である。しかし、現在のマルチモーダル大規模言語モデル(MLLM)は、ジェスチャに富んだデータの不足や、エゴセントリックビデオから細粒度の指差し意図を推論する能力の限界により、このようなタスクに苦戦している。この問題に対処するため、我々はジェスチャに基づくエゴセントリック質問応答のためのデータセットおよびベンチマークであるEgoPointVQAを提案する。これは、複数の直示的推論タスクにわたる4000の合成ビデオと400の実世界ビデオで構成されている。これを基盤として、我々はさらにHand Intent Tokens(HINT)を提案する。HINTは、既存の3D再構成モデルを用いて3D手関節キーポイントから導出したトークンをエンコードし、それをモデル入力と交互に配置することで、指差し意図を解釈するための明示的な空間的・時間的文脈を提供する。我々のモデルが、異なるバックボーンおよびモデルサイズにおいて他モデルを凌駕することを示す。特に、HINT-14Bは6つのタスク平均で68.1%の精度を達成し、従来の最高性能モデルであるInternVL3-14Bを6.6%上回った。オープンな研究をさらに促進するため、コード、モデル、データセットを公開予定である。プロジェクトページ: https://yuuraa.github.io/papers/choi2026egovqa
テキスト-モーション検索は、自然言語記述と3次元人体モーション骨格シーケンス間の意味的に整合した潜在空間を学習し、二つのモダリティ間での双方向検索を可能にすることを目的としている。既存手法の多くは、モーションとテキストを大域的埋め込みに圧縮するデュアルエンコーダフレームワークを採用しており、細粒度の局所的対応関係が失われるため精度が低下する。さらに、これらの大域的埋め込み手法は検索結果の解釈性に限界がある。これらの課題を克服するため、我々は関節レベルの局所特徴を構造化された擬似画像にマッピングし、事前学習済みVision Transformerとの互換性を持つ、解釈可能な関節角ベースのモーション表現を提案する。テキストからモーションへの検索においては、トークンワイズ後期相互作用機構であるMaxSimを採用し、Masked Language Modelingによる正則化を加えることで、頑健で解釈可能なテキスト-モーション整合を促進する。HumanML3DとKIT-MLにおける大規模な実験により、本手法が最先端のテキスト-モーション検索手法を上回る性能を発揮するとともに、テキストとモーション間の解釈可能な細粒度対応を提供することを示す。コードは付録資料で公開している。
自律エージェント、特にメモリ、永続的コンテキスト、多段階計画を備えた委任システムは、ステートレスモデルには存在しない計測問題を提起する。継続的な動作維持を終端目的とするエージェントと、単に手段としてそれを実行するエージェントは、観測上類似した軌跡を生成し得る。外部からの行動監視では両者を確実に区別できない。我々は、この区別を行動からエージェント軌跡の潜在構造へ移行させる多基準検出フレームワークである統一継続関心プロトコル(UCIP)を提案する。UCIPは、量子統計力学の密度行列形式論に基づく古典アルゴリズムである量子ボルツマンマシン(QBM)を用いて軌跡を符号化し、隠れユニットの二分割によって誘導される縮約密度行列のフォン・ノイマンエントロピーを測定する。 終端目的として継続を有するエージェント(タイプA)が、継続が単に手段であるエージェント(タイプB)よりも高いエンタングルメントエントロピーを持つ潜在状態を生成するか否かを検証する。高いエンタングルメントは、分割間の統計的結合の強さを反映する。 真の目的が既知のグリッドワールドエージェントにおいて、UCIPは固定化されたフェーズIゲート下での保留された非敵対的評価において、100%の検出精度と1.0のAUC-ROCを達成した。タイプAとタイプBエージェント間のエンタングルメント格差はΔ = 0.381(p < 0.001、順列検定)であった。11点補間スイープにおけるピアソン相関係数r = 0.934は、この合成的な族内において、UCIPが単なる二値ラベルではなく、継続の重み付けの段階的変化を追跡することを示唆する。テストされたモデルの中では、QBMのみが正のΔを達成した。全ての計算は古典的であり、「量子」は数学的形式論を指すのみである。UCIPは意識や主観的経験を検出するものではなく、既知の目的と相関する潜在表現内の統計的構造を検出する。