翻訳付きの日次キュレーションされたAI研究論文
ビデオ基盤モデルは、視覚的にリアルで時間的一貫性のあるコンテンツを生成するが、世界シミュレーターとしての信頼性は、物理的・論理的・空間的制約を捉えているかどうかに依存する。既存の指標(Frèchet Video Distance: FVDなど)は知覚的品質を重視し、因果関係・物理法則・グローバル一貫性の違反といった推論の失敗を見落としている。我々は、物理的推論、論理的推論、3D空間推論、2D空間推論、時間的推論の5つの推論能力に基づく体系的な評価フレームワーク「MMGR(Multi-Modal Generative Reasoning Evaluation and Benchmark)」を提案する。MMGRは、抽象推論(ARC-AGI、数独)、具身ナビゲーション(実世界3Dナビゲーションと位置推定)、物理常識(スポーツと合成的インタラクション)の3領域にわたる生成的推論を評価する。MMGRは、ビデオ生成と画像生成の両方にわたる全体的な正確性を要求する細粒度の指標を適用する。主要なビデオモデル(Veo-3、Sora-2、Wan-2.2)および画像モデル(Nano-banana、Nano-banana Pro、GPT-4o-image、Qwen-image)をベンチマークした結果、領域間で顕著な性能差が明らかになった。モデルは物理常識タスクでは一定の成功を収めるが、抽象推論(ARC-AGIで精度10%未満)では低調であり、具身環境における長期的空間計画にも課題を抱える。我々の分析は、知覚的データへの過度な依存、弱いグローバル状態の一貫性、因果的正しさよりも視覚的尤もらしさを報酬とする目的関数など、現行モデルの主要な限界を浮き彫りにする。MMGRは、統合的な診断ベンチマークと、推論を意識した生成的ワールドモデルへの道筋を提供する。
近年の映像生成技術は目覚ましい進歩を遂げ、実写と見分けがつかないほど鮮明なコンテンツを生成できるようになった。これに伴い、AI生成映像の検出は新たな社会的課題として浮上している。従来のAIGC検出ベンチマークは、音声なしの映像評価が主流で、広範なナラティブ領域を対象とし、分類タスクに焦点を当ててきた。しかし、最先端の映像生成モデルが没入感のある音声付き映像を生成し、人間や視覚言語モデル(VLM)を確実に欺けるかどうかは未解明のままであった。この課題に対処するため、我々は厳密な視聴覚連携下での知覚的リアリズムを評価するASMR由来の映像ベンチマークスイート「Video Reality Test」を提案する。本ベンチマークの特徴は以下の通りである:(i)没入型ASMR映像・音声ソース。厳選された実ASMR映像を基盤とし、物体・動作・背景の多様性を備えた細粒度の動作-物体相互作用に焦点を当てる。(ii)ピアレビュー評価。映像生成モデルが審査員を欺こうとする作成者(creator)役、VLMが虚偽を見破ろうとする審査員(reviewer)役となる敵対的作成者-審査員プロトコルを採用。実験結果から明らかになった知見は以下の通り:最強の作成者Veo3.1-Fastは大半のVLMを欺き、最強の審査員(Gemini 2.5-Pro)の正解率は56%(ランダム選択は50%)に留まり、人間の専門家(81.25%)を大きく下回った。音声の追加は実物と偽物の識別を改善するが、ウォーターマークなどの表面的手がかりがモデルの判断を大きく歪める可能性がある。これらの発見は、現在の映像生成のリアリズム限界を浮き彫りにするとともに、VLMの知覚的忠実度と視聴覚一貫性における課題を露呈するものである。コードはhttps://github.com/video-reality-test/video-reality-test で公開している。
本論文では、ストリーミングビデオ拡散モデル「WorldPlay」を提案する。これはリアルタイムでインタラクティブなワールドモデリングを実現し、長期的な幾何学的一貫性を保持することで、従来手法を制限していた速度とメモリのトレードオフを解決する。WorldPlayは3つの核心的イノベーションによって強化されている。1) デュアルアクション表現を用いて、ユーザーのキーボード・マウス入力に対するロバストな動作制御を実現。2) 長期的な一貫性を確保するため、再構成コンテキストメモリが過去フレームから動的にコンテキストを再構築し、時間的リフレーミングによって幾何学的に重要だが時間的に遠ざかったフレームへのアクセスを維持することで、メモリ減衰を効果的に緩和。3) メモリを考慮したモデル向けに設計された新規蒸留手法「コンテキスト強制」を提案。教師モデルと生徒モデル間でメモリコンテキストを整合させることで、生徒モデルが長距離情報を利用する能力を保持し、リアルタイム速度を実現しながら誤差の累積を防止する。総合的に、WorldPlayは24 FPSで720pの長時間ストリーミングビデオを生成し、優れた一貫性を発揮。既存技術と比較して有利な性能を示し、多様なシーンに対して強力な一般化能力を実証している。プロジェクトページとオンラインデモは以下で公開:https://3d-models.hunyuan.tencent.com/world/ および https://3d.hunyuan.tencent.com/sceneTo3D。
主題駆動型画像生成は、単一主題から複数主題の合成へと進化してきましたが、識別能力、すなわち入力に複数の候補が含まれる場合に正しい主題を識別して生成する能力が軽視されてきました。この制約が、複雑で現実的な視覚環境における有効性を妨げています。本研究では、合成と識別を統合した統一的理解-生成手法「Scone」を提案します。Sconeは理解専門家を意味論的橋渡し役として機能させ、意味情報を伝達しつつ生成専門家を導くことで、主題の同一性を保持しながら干渉を最小化します。2段階の訓練戦略により、最初に合成を学習し、意味的アラインメントと注意機構に基づくマスキングを通じて識別能力を強化します。さらに、多様なシナリオにおける合成と識別の両方を評価するベンチマーク「SconeEval」を導入します。実験により、Sconeが2つのベンチマークにおいて合成タスクと識別タスクの両方で既存のオープンソースモデルを凌駕することを実証しました。モデル、ベンチマーク、訓練データはhttps://github.com/Ryann-Ran/Sconeで公開しています。
空間追跡は、ロボットにおける基本的な身体性インタラクション能力として、多段階のメートル法に基づく推論と複雑な空間参照、実世界の計測を組み合わせる必要があるため、本質的に困難な課題である。しかし、既存手法はこの複合的なタスクに対処しきれていない。そこで我々はRoboTracerを提案する。これは3D空間認識を備えた視覚言語モデル(VLM)であり、普遍的な空間エンコーダと回帰監督付きデコーダを通じて、教師ありファインチューニング(SFT)中のスケール認識を強化し、3D空間参照と計測を両立した初めての手法である。さらにRoboTracerは、メートル法に敏感なプロセス報酬を用いた強化学習ファインチューニング(RFT)により、重要な中間知覚手がかりを監督しながら空間軌跡を正確に生成する、多段階メートル法推論を進化させている。SFTとRFTの訓練を支援するため、屋外/室内/卓上シーンを網羅し複雑な推論プロセス(最大9段階)をサポートする大規模データセットTraceSpatial(3,000万のQAペア)を構築した。さらに、空間追跡評価の空白を埋める挑戦的ベンチマークTraceSpatial-Benchを提案する。実験結果では、RoboTracerが空間理解・計測・参照においてベースラインを凌駕し平均成功率79.1%を達成、TraceSpatial-BenchでもGemini-2.5-Proを36%上回る精度で大幅なSOTA性能を示した。特筆すべきは、RoboTracerが多様な制御ポリシーと連携し、雑多な実世界シーンで様々なロボット(UR5、G1ヒューマノイド)による長期的で動的なタスクを実行可能な点である。
大規模言語モデル(LLM)の急速な進化は、学習後データセットの質と多様性に依存している。しかし、根本的な矛盾が存在する:モデル自体は厳密にベンチマーク評価される一方で、それらを駆動するデータは「ブラックボックス」化されたままであり、不透明な構成、不確かな出所、体系的な評価の欠如が特徴である。この不透明さは再現性を妨げ、データ特性とモデル挙動の因果関係を不明瞭にしている。この隔たりを埋めるため、我々は学習後データの本質的価値をベンチマーク評価するための総合的かつオープンなプラットフォーム「OpenDataArena(ODA)」を提案する。ODAは以下の4つの柱から構成される包括的エコシステムを確立する:(i)多様なモデル(Llama、Qwenなど)と領域にわたる公平でオープンな比較を保証する統一トレーニング・評価パイプライン、(ii)数十の異なる軸に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、(iii)データセットの系譜を可視化し構成要素を分析する対話型データ系譜エクスプローラー、(iv)データ研究を促進する完全オープンソースのトレーニング・評価・スコアリングツールキット。大規模な実験(複数領域にわたる120以上の学習データセット、22のベンチマーク、600回以上のトレーニング検証、4,000万以上の処理データポイントを網羅)を通じて、重要な知見が得られた。分析により、データ複雑性とタスク性能の間の本質的トレードオフが明らかになり、系譜追跡を通じて一般的なベンチマークの冗長性が特定され、データセット間の系譜的関係がマッピングされた。すべての結果、ツール、設定を公開し、高品質なデータ評価へのアクセスを民主化する。ODAは単なるリーダーボードの拡張ではなく、試行錯誤的なデータキュレーションから、データ中心AIの原理に基づく科学へとパラダイムシフトを目指す。これにより、データ混合法則や基盤モデルの戦的構成に関する厳密な研究への道を開くものである。
高次元空間におけるベクトル類似性検索(VSS)は、大規模言語モデル(LLM)における埋め込み検索から、意味的情報検索や推薦エンジンに至るまで、多数のデータ集約型サービスにおいて、次世代データベースシステムのコア機能として急速に台頭している。しかし、現行のベンチマークは、VSSを主に、距離指標のみで定義された正解データに対する再現率とレイテンシのトレードオフで評価しており、検索品質が下流タスクに最終的に与える影響を軽視している。この乖離は、学術研究と産業実践の両方を誤った方向に導く可能性がある。 我々は、現実的なアプリケーションコンテキストにおけるVSS手法のエンドツーエンド評価のための総合的なベンチマークスイート「Iceberg」を提案する。タスク中心の視点から、Icebergは「情報損失のファネル」を明らかにする。これは、エンドツーエンドの性能低下の3つの主要な原因を特定するものである:(1) 特徴抽出時の埋め込み損失、(2) 距離がタスクの関連性を十分に反映しない指標の誤用、(3) データ分布の敏感性(様々な偏りやモダリティにわたるインデックスの頑健性を浮き彫りにする)。より包括的な評価のために、Icebergは画像分類、顔認識、テキスト検索、推薦システムなどの主要分野にわたる8つの多様なデータセットを網羅する。各データセット(100万から1億ベクトルの規模)には、豊富なタスク固有のラベルと評価指標が含まれており、検索アルゴリズムを単体ではなく、アプリケーションの全パイプライン内で評価することを可能にする。Icebergは13の最先端VSS手法をベンチマークし、アプリケーションレベルの指標に基づいて再ランク付けすることで、従来の再現率-レイテンシ評価のみから導かれたランキングからの大幅な乖離を明らかにする。これらの知見に基づき、我々は一連のタスク中心メタ特徴を定義し、解釈可能な決定木を導出して、実践者が特定のワークロードに応じてVSS手法を選択・調整するための指針を提供する。
スケーラブルベクターグラフィックス(SVG)は現代のウェブデザインにおいて中心的な役割を果たしており、ウェブ環境がますます動的になるにつれて、そのアニメーション化の需要も高まり続けている。しかし、コード生成とモーションプランニングにおける最近の進歩にもかかわらず、ベクターグラフィックスのアニメーション化をビジョン言語モデル(VLM)で自動化することは依然として困難な課題である。VLMはSVGを誤って扱うことが多い。なぜなら、視覚的に一貫した部分が、しばしばどの要素が一緒に動くべきかの指針をほとんど提供しない低レベルな形状に断片化されているためである。本論文では、信頼性の高いSVGアニメーションに必要な意味的構造を復元し、現在のVLMシステムが見落としている欠落した層を明らかにするフレームワークを提案する。これは、複数の弱い部分予測を統計的に集約することで達成され、ノイズの多い予測から意味を安定して推論することを可能にする。SVGを意味的グループに再編成することにより、我々のアプローチはVLMがはるかに一貫性のあるアニメーションを生成できるようにする。実験結果は、既存のアプローチを大幅に上回る改善を示しており、意味的復元がロバストなSVGアニメーションを実現し、VLMとベクターグラフィックス間のより解釈可能な相互作用を支援する鍵となるステップであることを示唆している。
ストリーミング動画生成の中核的課題は、長いコンテキストにおける内容の一貫性を維持することであり、これはメモリ設計に対して高い要求を課す。既存の手法の多くは、事前に定義された戦略で過去フレームを圧縮することでメモリを維持している。しかし、生成対象の動画チャンクごとに参照すべき過去の手がかりは異なり、固定された戦略ではこれを満たすのは困難である。本研究では、この問題を解決するためにMemFlowを提案する。具体的には、新しいチャンクを生成する前に、そのチャンクのテキストプロンプトと最も関連性の高い過去フレームを検索してメモリバンクを動的に更新する。この設計により、後のフレームで新たなイベントが発生したりシーンが切り替わったりする場合でも、物語の一貫性を保つことができる。さらに、生成時にはアテンション層において、各クエリに対してメモリバンク内の最も関連性の高いトークンのみを活性化し、生成効率を効果的に保証する。これにより、MemFlowは計算負荷を無視できる程度(メモリを使用しないベースラインと比較して7.9%の速度低下のみ)に抑えつつ、優れた長文脈一貫性を実現し、KVキャッシュを備えた任意のストリーミング動画生成モデルとの互換性を維持する。
効果的な報酬関数の設計は、強化学習(RL)における中心的かつしばしば困難な課題であり、特に複雑な推論タスクを行う自律エージェントの開発において顕著である。自動化された報酬最適化手法は存在するが、それらは一般に、報酬関数をブラックボックスとして扱い、報酬構造とタスク性能の間の因果関係を捉えられない導関数不要の進化的ヒューリスティックに依存している。この隔たりを埋めるため、我々は最適な報酬信号の自律的発見を可能にする二レベルフレームワーク、微分可能進化強化学習(DERL)を提案する。DERLでは、メタ最適化器が構造化された原子的プリミティブを組み合わせて報酬関数(メタ報酬)を進化させ、内側ループのポリシーの学習を導く。決定的に、従来の進化手法とは異なり、DERLのメタ最適化は微分可能である:内側ループの検証性能を信号として扱い、強化学習を通じてメタ最適化器を更新する。これにより、DERLはタスク成功に対する「メタ勾配」を近似し、より密で実践的なフィードバックを生成する方法を段階的に学習する。我々はDERLを、ロボットエージェント(ALFWorld)、科学シミュレーション(ScienceWorld)、数学的推論(GSM8k, MATH)という3つの異なる領域で検証する。実験結果は、DERLがALFWorldとScienceWorldにおいて最高性能を達成し、ヒューリスティックな報酬に依存する手法、特に分布外シナリオにおいて大幅に優位であることを示す。進化軌跡の分析は、DERLがタスクの内在的構造を首尾よく捉え、人間の介入なしに自己改善するエージェントのアライメントを可能にすることを実証する。
私たちは、70億パラメータと320億パラメータ規模の最先端かつ完全オープンな言語モデルファミリー「Olmo 3」を紹介します。Olmo 3のモデル構築は、長文コンテキスト推論、関数呼び出し、コーディング、指示追従、一般的なチャット、知識想起を目標としています。本リリースには、モデルファミリーの完全なライフサイクル、すなわち構築に使用された全段階、チェックポイント、データポイント、依存関係を含むモデルフロー全体が含まれます。当社のフラグシップモデルである「Olmo 3 Think 32B」は、現在までに公開された最も強力な完全オープンな思考モデルです。
強化学習(RL)を用いた汎用推論モデルの構築には、推論時の応答長や検証遅延の大きなばらつきなど、領域横断的な異質性が伴う。このような変動性はRLインフラを複雑にし、訓練を遅延させ、訓練カリキュラム(例:応答長の拡張)やハイパーパラメータ選択を困難にする。本研究では、カスケード型領域別強化学習(Cascade RL)を提案し、指示モードと深い思考モードの両方で動作可能な汎用推論モデルNemotron-Cascadeを開発する。異なる領域からの異質なプロンプトを混在させる従来手法と異なり、Cascade RLは領域別の逐次的なRLを調整し、エンジニアリングの複雑さを軽減し、幅広いベンチマークで最先端の性能を実現する。特に、アライメントのためのRLHFは事前ステップとして用いると、単なる選好最適化を超えてモデルの推論能力を大幅に向上させ、後続の領域別RLVF段階では、先行領域で達成されたベンチマーク性能が低下することは稀であり、むしろ改善される場合さえある(図1参照)。RL後の14Bモデルは、LiveCodeBench v5/v6/ProにおいてそのSFT教師モデルであるDeepSeek-R1-0528を上回り、2025年国際情報オリンピック(IOI)で銀メダル相当の性能を達成した。我々は訓練とデータのレシピを公開する。
大規模言語モデル(LLM)は、推薦システムを暗黙的な行動パターンマッチングから明示的な意図推論へと転換する顕著な可能性を示している。RecGPT-V1はLLMベースの推論をユーザー興味マイニングとアイテムタグ予測に統合することでこのパラダイムを先駆的に実現したが、以下の4つの根本的課題を抱えている:(1)複数の推論経路にわたる計算非効率性と認知的冗長性、(2)固定テンプレート生成における説明の多様性不足、(3)教師あり学習パラダイム下での限定的な一般化能力、(4)人間の基準に適合しない結果偏重評価である。 これらの課題に対処するため、我々は4つの核心的革新を備えたRecGPT-V2を提案する。第一に、階層型マルチエージェントシステムは協調的連携による意図推論を再構築し、認知的重複を排除しながら多様な意図カバレッジを実現する。ユーザー行動コンテキストを圧縮するハイブリッド表現推論と組み合わせることで、GPU消費を60%削減し、排他的再現率を9.39%から10.99%に改善した。第二に、メタプロンプティングフレームワークは文脈適応型プロンプトを動的に生成し、説明の多様性を+7.3%向上させる。第三に、制約付き強化学習は多報酬衝突を緩和し、タグ予測で+24.1%、説明受容性で+13.0%の改善を達成する。第四に、エージェント・アズ・ア・ジャッジフレームワークは評価を多段階推論に分解し、人間の選好整合性を向上させる。淘宝網でのオンラインA/Bテストでは、CTR+2.98%、IPV+3.71%、TV+2.19%、NER+11.46%の有意な改善を実証した。RecGPT-V2は、認知探索と産業応用の間の隔たりを埋め、LLM駆動の意図推論を大規模展開する技術的実現性と商業的実行可能性を同時に確立するものである。
既存の生成モデルや統一モデルは一般的な画像生成において優れた性能を発揮するが、一般的なシナリオを超えた深い推論、計画、精密なデータから視覚へのマッピング能力を要する課題には対応が困難である。この限界を超えるため、我々は新たな挑戦的課題として「創造的テーブル可視化」を提案する。これは与えられたテーブルデータを忠実かつ美的に可視化したインフォグラフィックを生成することを要求する課題である。 この課題に対処するため、我々はプログレッシブな自己修正プロセスによりMLLMと拡散モデルを協調させるShowTableを提案する。MLLMは視覚的計画の推論と視覚的誤りの判定を担当する中央オーケストレーターとして機能し、拡散モデルはMLLMからの命令を実行して高精細な結果を達成する。本課題とパイプラインを支援するため、3種類の自動データ構築パイプラインを開発した。さらに、5つの評価次元にわたる800の挑戦的インスタンスから成る新ベンチマークTableVisBenchを導入し、本課題における性能評価を可能にした。 各種モデルで実装した我々のパイプラインは、ベースライン手法を大幅に上回る性能を示し、効果的なマルチモーダル推論、生成、誤り修正能力を実証した。
画像から3D生成技術の最近の進展は、デザイン、AR/VR、ロボティクスにおいて膨大な可能性を開拓しました。しかし、AIが生成した3Dアセットを実際のアプリケーションで使用するには、それらを容易に編集できる能力が重要な要件となります。本論文では、画像から3D生成モデルにテキストによる制御性を付与するフィードフォワード手法、Steer3Dを提案します。これにより、生成された3Dアセットを言語で編集することが可能になります。我々のアプローチはControlNetに着想を得ており、これを画像から3D生成に適応させることで、フォワードパスのみで直接テキスト制御を実現します。自動データ生成のためのスケーラブルなデータエンジンを構築し、フローマッチング訓練とDirect Preference Optimization(DPO)に基づく2段階の訓練レシピを開発しました。競合手法と比較して、Steer3Dは言語指示により忠実に従い、元の3Dアセットとの一貫性をより良く維持しながら、処理速度が2.4倍から28.5倍高速です。Steer3Dは、10万規模のデータを用いて、事前学習済み画像から3D生成モデルの生成を新しいモダリティ(テキスト)で制御できる可能性を示しています。プロジェクトウェブサイト: https://glab-caltech.github.io/steer3d/
大規模言語モデル(LLM)の急速なスケーリングは顕著な性能向上をもたらしたが、同時に膨大なメモリコストも招いている。既存のパラメータ効率化手法(プルーニングや量子化など)は、主に事前学習済みモデルを圧縮するものであり、アーキテクチャの能力を強化しないため、ベースモデルの表現力の限界に直面する。本研究では、固定パラメータ予算内で幅と深さの両次元におけるパラメータの柔軟な再利用を可能にする、新たなフィードフォワードネットワーク(FFN)であるVersatileFFNを提案する。認知の二重過程理論に着想を得たVersatileFFNは、2つの適応経路で構成される。幅可変経路は、単一の共有FFNからサブエキスパートの混合を生成し、パラメータを増加させることなくスパースなエキスパートルーティングを模倣する。深さ可変経路は、同じFFNを再帰的に適用し、複雑なトークンに対するより深い処理をエミュレートする。難易度対応ゲーティングがこれら2つの経路を動的に調整し、「容易な」トークンは効率的な幅方向の経路を通し、「困難な」トークンにはより深い反復的な精緻化を割り当てる。重要な点は、両経路が同じパラメータを再利用するため、追加の能力はすべてメモリではなく計算からもたらされることである。様々なベンチマークとモデル規模における実験により、本手法の有効性が実証された。コードはhttps://github.com/huawei-noah/noah-research/tree/master/VersatileFFN で公開予定である。
アフォーダンス予測は、言語指示に基づいて物体上のインタラクション領域を特定する技術であり、具身化AIにおいて極めて重要である。従来のエンドツーエンドモデルは、高次元の推論と低次元の接地を単一のパイプラインに結合し、注釈付きデータセットによる学習に依存するため、新しい物体や未経験の環境への汎化性能が低いという課題がある。本論文では、このパラダイムを超えて、アフォーダンス予測を3段階のパイプラインに分離する訓練不要のエージェントフレームワーク「A4-Agent」を提案する。本フレームワークは、推論時に専門化された基盤モデルを協調させる:(1) 生成モデルを用いてインタラクションの結果を可視化する「Dreamer」、(2) 大規模視覚言語モデルを活用してインタラクション対象の物体部位を決定する「Thinker」、(3) 視覚基盤モデルを統制してインタラクション領域を精密に特定する「Spotter」。タスク固有のファインチューニングを一切行わずに、事前訓練済みモデルの相補的な強みを活用する本ゼロショットフレームワークは、複数のベンチマークにおいて教師あり手法の最高性能を大幅に上回り、実世界環境への頑健な汎化性能を示す。
我々はSS4Dを提案する。これは単眼ビデオから動的3Dオブジェクトを直接合成するネイティブ4D生成モデルである。3Dやビデオ生成モデルを最適化して4D表現を構築する従来手法とは異なり、我々は4Dデータ上で直接生成器を学習することで、高精細度、時間的一貫性、構造的一貫性を実現する。本手法の核心は、構造化された時空間潜在変数の圧縮集合である。具体的には、(1) 4D学習データの不足に対処するため、強固な空間的一貫性を保持する事前学習済み単一画像-to-3Dモデルを基盤とする。(2) フレーム間を考慮する専用時間レイヤーを導入し時間的一貫性を強化する。(3) 長時間ビデオシーケンスにおける効率的な学習と推論を支援するため、因子分解4D畳み込みと時間的ダウンサンプリングブロックを用いて時間軸に沿った潜在シーケンスを圧縮する。さらに、オクルージョンに対する頑健性を高めるため、注意深く設計された学習戦略を採用する。
Masked Discrete Diffusion Models (MDMs)は、画像理解、生成、編集を含む多様なマルチモーダルタスクにおいて優れた性能を達成している。しかし、各サンプリングステップで冗長なマスクトークンを繰り返し処理する必要があるため、その推論速度は最適とは言い難い。本研究では、各推論ステップで不要なマスクトークンを動的に刈り込むことでMDMサンプリングを高速化する新しいモデリングフレームワーク、Sparse-LaViDaを提案する。生成品質を維持するため、刈り込まれたトークンのコンパクトな表現として機能する専用のレジスタートークンを導入する。さらに、学習と推論の一貫性を確保するため、学習時に刈り込みサンプリング手順を忠実に模倣する専用のアテンションマスクを設計する。最先端の統一MDMであるLaViDa-Oを基盤とするSparse-LaViDaは、テキストからの画像生成、画像編集、数学的推論といった多様なタスクにおいて、生成品質を維持しつつ最大2倍の高速化を実現する。
非パラメトリック量子化は、パラメータ効率の高さと大規模コードブックへの拡張性から大きな注目を集めている。本論文では、格子符号化の観点から、様々な非パラメトリック量子化手法を統一的な定式化で提示する。格子符号の幾何学的性質を分析することで、BSQのような既存のルックアップフリー量子化手法をオートエンコーダで学習する際に補助損失項が必要となる理由を明らかにする。さらに発展させ、ランダム格子、一般化フィボナッチ格子、最密球充填格子を含むいくつかの候補を探索する。中でも、高い対称性と超球面上の均一分布により、Leech格子に基づく量子化手法(Spherical Leech Quantization, Λ_{24}-SQ)は、学習プロセスの簡素化と再構成-圧縮のトレードオフ改善の両方をもたらすことがわかった。画像トークン化および圧縮タスクにおいて、本量子化手法は従来最高性能であったBSQを、全ての評価指標で再構成品質が優れ、かつわずかに少ないビット消費で上回る。この改善効果は、最先端の自己回帰型画像生成フレームワークにも及ぶ。
拡散言語モデル(dLM)は並列的な非自己回帰的生成を可能とする有望なパラダイムとして登場したが、スクラッチから学習する場合、その学習効率は自己回帰(AR)言語モデルに遅れを取っている。この問題に対処するため、我々は事前学習済みARモデルを、ARモデルのタスク精度を維持しつつ高速性に優れた効率的なdLMへ変換するAR-to-dLM変換を研究する。既存のAR-to-dLM手法の注意パターンと目的関数における限界を特定し、より効果的なAR-to-dLM変換のための原理と方法論を提案することでこれを実現する。具体的には、まず様々な注意パターンを体系的に比較し、事前学習済みARの重み分布を維持することが効果的なAR-to-dLM変換に重要であることを明らかにする。そこで我々は、ブロック単位の注意パターンを用いた継続的事前学習スキームを導入する。これはブロック間では因果性を保ちつつ、各ブロック内では双方向モデリングを可能とする。この手法は、KVキャッシングを可能とする既知の利点に加えて、完全双方向モデリングよりも事前学習済みARモデルの重み分布をより良く保持でき、精度と効率の両立をもたらすことを見出した。第二に、マスクトークン分布(一様分布と強い左から右への偏り)の訓練-テスト間のギャップを緩和するため、訓練時に後続のトークンに高いマスキング確率を割り当て、テスト時の振る舞いをより良く模倣する位置依存トークンマスキング戦略を提案する。このフレームワークを活用し、dLMの注意パターン、訓練動態、その他の設計選択に関する広範な研究を行い、スケーラブルなAR-to-dLM変換への実践的な知見を提供する。これらの研究から生まれたEfficient-DLMファミリーは、最新のARモデルおよびdLMを凌駕する。例えば、我々のEfficient-DLM 8Bは、Dream 7BおよびQwen3 4Bと比較して、それぞれ4.5倍/2.7倍高いスループットで、+5.4%/+2.7%高い精度を達成する。
本論文は新規手法を提案するものではなく、映像時間的定位(VTG)という映像理解の中核能力に対する、簡潔で漸進的かつ不可欠なベースラインを確立する。マルチモーダル大規模言語モデル(MLLM)は様々な映像理解タスクで優れた性能を発揮するが、VTG向けに最適化する手法については未開拓の領域が多い。本論文では、強力なVTG能力を備えたMLLM構築に向けた体系的な調査「TimeLens」を、データ品質とアルゴリズム設計の二つの主要次元に沿って提示する。まず既存VTGベンチマークにおける重大な品質問題を明らかにし、厳格な品質基準で再注釈した3つの人気ベンチマークから成る「TimeLens-Bench」を導入する。分析により、従来の評価基準の信頼性不足を確認し、従来ベンチマークとの劇的なモデル順位変動を明らかにする。さらに自動化再注釈パイプラインによるノイジーな訓練データ問題に対処し、大規模高品質な訓練データセット「TimeLens-100K」を構築する。 このデータ基盤に立脚し、アルゴリズム設計原則に関する深い探求を通じて、一連の有意義な知見と効率的かつ効果的な実践手法を確立する。これには、時間表現のための交差型テキストエンコーディング、検証可能な報酬を用いた思考不要の強化学習(RLVR)アプローチを訓練パラダイムとする手法、そしてRLVR訓練のための注意深く設計されたレシピが含まれる。これらの取り組みが結実したTimeLensモデル群は、オープンソースモデルの中で最先端のVTG性能を達成し、GPT-5やGemini-2.5-Flashといった専有モデルをも凌駕する。すべてのコード、データ、モデルは将来の研究促進のため公開予定である。
真に適応的な身体性知能を達成するには、エージェントが静的な模倣だけでなく、人間が練習を通じて技能を習得する方法と同様に、環境との相互作用を通じて継続的に改善することを学ぶ必要がある。Vision-Language-Action (VLA) モデルは大規模言語モデルを活用することでロボットマニピュレーションを進展させてきたが、教師ありファインチューニング (SFT) に根本的に制限されている。つまり、タスク毎に数百の実演データを必要とし、軌道を固定的に記憶し、展開条件が訓練時から乖離した場合に適応できない。本研究では、VLAが最小限またはゼロのタスク特化実演で環境相互作用を通じて継続的に適応することを可能にするテスト時訓練フレームワーク、EVOLVE-VLAを提案する。主要な技術的課題は、テスト時には利用不可能な正解報酬信号を自律的フィードバックで置き換えることである。我々はこれを、密なフィードバックを提供する学習済み進度推定器によって解決し、決定的に、二つのメカニズムを通じてこの本質的にノイズの多い信号を「飼いならす」フレームワークを設計する:(1) ノイズの多い点推定値を平滑化する累積的進度推定メカニズム、(2) 段階的な方策進化を可能にする漸進的ホライズン拡張戦略である。EVOLVE-VLAは顕著な改善を達成した:長期タスクで+8.6%、ワンショット学習で+22.0%、さらに、タスク横断的な一般化能力を発揮し、タスク特化実演なしで未見タスクにおいて20.8%の成功率を達成した(純粋なSFTの0%に対して)。定性的分析は、実演には存在しない誤り回復や新規戦略といった創発的能力を明らかにする。本研究成果は、静的な模倣を超え、継続的な自己改善に向かう、真に学習し適応するVLAへの重要な一歩を表す。
本論文では、単眼カメラ映像からシミュレーション可能な人体動作とシーン幾何を復元する手法CRISPを提案する。従来の人物-シーン共同復元手法は、物理法則を考慮しないデータ駆動型事前分布と共同最適化に依存するか、あるいはノイズの多い幾何形状を復元するため、シーン相互作用を伴う動作追跡ポリシーの失敗を招く課題があった。これに対し我々の核心的知見は、深度・法線・フロー情報に対する簡潔なクラスタリング処理により点群復元結果へ平面プリミティブをフィッティングすることで、凸形状でクリーン、かつシミュレーション可能な幾何形状を復元する点にある。相互作用時に遮蔽され得るシーン幾何の復元には、人物-シーン接触モデリングを活用し(例:人物姿勢を利用した椅子座面の遮蔽部分復元)、最終的に強化学習によるヒューマノイド制御器の駆動を通じて物理的に妥当な復元結果を保証する。本手法により、人物中心映像ベンチマーク(EMDB、PROX)における動作追跡失敗率を55.2%から6.9%に低減するとともに、RLシミュレーション処理速度を43%向上させることを実証した。さらにカジュアル撮影動画・インターネット動画・Sora生成動画を含む実世界映像への適用により、CRISPが物理的に妥当な人体動作と相互作用環境を大規模に生成可能であることを示し、ロボティクスやAR/VRにおける実世界-シミュレーション連携応用の大幅な進展を実現する。
医用画像復元(MedIR)は、低品質な医用画像から高品質な画像を復元することを目的としている。近年のMedIRの進歩は、複数の異なるMedIRタスクを同時に処理可能なAll-in-Oneモデルに焦点が当てられている。しかし、モダリティと劣化タイプの両方に大きな差異があるため、これらの多様なタスクに共有モデルを使用する際には、2つの重要なタスク間関係を慎重に考慮する必要がある。1つはタスク干渉であり、同じパラメータに対する異なるタスク間で競合する勾配更新方向が生じる現象である。もう1つはタスク不均衡であり、各タスクに内在する学習難易度の違いによって引き起こされる最適化の偏りを指す。これらの課題に対処するため、我々はタスク適応型Transformer(TAT)を提案する。これは2つの主要な革新を通じて異なるタスクに動的に適応する新しいフレームワークである。第一に、タスク適応的重み生成戦略を導入し、各タスクに対してタスク固有の重みパラメータを生成することで、共有重みパラメータにおける潜在的な勾配競合を排除し、タスク干渉を軽減する。第二に、タスク適応的損失バランシング戦略を導入し、タスク固有の学習難易度に基づいて損失重みを動的に調整することで、特定タスクの支配や学習不足を防止する。大規模な実験により、提案するTATが、PET合成、CTノイズ除去、MRI超解像の3つのMedIRタスクにおいて、タスク特化設定とAll-in-One設定の両方で最先端の性能を達成することを実証した。コードはhttps://github.com/Yaziwel/TAT で公開されている。
大規模な混合専門家(MoE)モデルの推論は、高いリソース要求と動的なワークロードにより困難が伴う。既存のソリューションでは、モデル全体を単一のモノリシック単位としてデプロイすることが多く、Attentionと専門家モジュールという異なる要求を持つ構成要素に統一的なリソース設定を適用するため、拡張性が制限され、リソース効率も低下する。本論文では、Attentionと専門家を別々のGPUサブクラスタに分離し、各モジュールを独立して管理・スケーリング可能にする、スケーラブルなMoE推論システムJanusを提案する。Janusは、効率的な分散型MoE推論を実現するため、3つの主要な設計を組み込んでいる。第一に、ノード内およびノード間の帯域階層を活用した低遅延データ交換のための適応的二段階通信方式を提案する。第二に、MoEモジュールがメモリ律速であることに着目し、軽量スケジューラをGPUカーネルとして実装し、最小限のオーバーヘッドでGPU間の活性化専門家数のバランスを調整することで推論遅延を削減する。第三に、細粒度なリソース管理により専門家の配置を動的に調整し、AttentionとMoEリソースを独立してスケーリングすることで全体効率を向上させる。評価結果では、Janusがトークン単位の遅延要件を満たしつつ、既存の最先端システムと比較してGPUあたりのスループットを最大3.9倍向上させることを示す。
グラウンディッド動画質問応答(GVQA)は、動画内の関連する時間セグメントを特定し、与えられた質問に対して正確な回答を生成することを目的とする。しかし、大規模動画言語モデル(LVLM)の時間的認識能力は限定的である。既存のGroup Relative Policy Optimization(GRPO)に基づく手法は時間的グラウンディングの改善を試みているが、依然として回答を関連する動画証拠に忠実に結びつけることに苦戦しており、時間的誤定位や幻覚を引き起こしている。本研究では、Zoom-Zeroを提案する。これは、まず質問に関連するセグメントを特定し、その後時間的に最も重要なフレームにズームインして細粒度の視覚的検証を行う粗密フレームワークである。本手法は、GVQAタスクにおけるGRPOの限界を以下の二つの革新により解決する:(i)時間的グラウンディング予測の忠実性を検証し、グラウンディングされたフレームでの細粒度視覚検証を促進するズームイン精度報酬;(ii)時間的定位または回答生成に関与するトークンに報酬を帰属させるトークン選択的信用割り当て。これにより、GRPOが多面的な報酬信号を扱う際の問題を軽減する。提案手法はグラウンディッド動画質問応答を進化させ、NExT-GQAで5.2%、ReXTimeで4.6%の時間的グラウンディング精度向上を達成し、平均回答精度も2.4%向上させた。さらに、推論時の粗密ズームインは、大域的な文脈を損なうことなく重要な視覚的詳細を保持することで長尺動画理解にも寄与し、長尺動画ベンチマークで平均6.4%の改善をもたらした。
文脈内学習は現代の大規模言語モデル(LLM)の中核をなす技術である。しかし、従来のアーキテクチャでは、線形あるいは固定の位置インデックスを割り当てることで、硬直的で固定された文脈構造が課せられてきた。認知的負荷理論(CLT)に基づき、我々はこの情報量の乏しい構造が、余分な認知的負荷を増大させ、深い推論や注意配分に割り当てられるべき有限の作業記憶容量を消費していると論じる。この問題に対処するため、我々は文脈の再配置によって余分な負荷を軽減する新規メカニズム「RePo」を提案する。標準的な手法とは異なり、RePoは微分可能なモジュールf_φを利用して、事前定義された整数範囲に依存するのではなく、文脈的依存関係を捉えるトークン位置を割り当てる。OLMo-2 1Bバックボーンを用いた継続事前学習により、RePoが、雑音を含む文脈、構造化データ、長い文脈長を伴うタスクにおける性能を大幅に向上させながら、一般的な短文脈タスクでも競争力のある性能を維持することを実証する。詳細な分析により、RePoが、遠く離れた関連情報により高い注意を割り当て、密で非線形な空間内で位置を割り当て、入力文脈の内在的構造を捉えることに成功していることが明らかとなった。コードはhttps://github.com/SakanaAI/repo で公開している。
検証可能な報酬を用いた強化学習(RLVR)は、回答検証可能な信号を活用して方策最適化を導くことで、大規模推論モデル(LRM)の訓練に有効であることが実証されている。しかしながら、この手法は高いアノテーションコストが課題となる。この問題を緩和するため、近年の研究ではエントロピーや多数決などモデルの内部一貫性のみから報酬を導出する教師なしRLVR手法が探求されている。一見有望に見えるこれらの手法は、訓練の後期段階でモデル崩壊を引き起こしがちであるが、これは外部監督がない状況で誤った推論パターンが強化されることに起因する可能性がある。本研究では、少量のラベル付きデータセットを用いてラベルなしサンプルに対するRLVR訓練を導く、新たな半教師ありRLVRパラダイムを検討する。我々の重要な知見は、教師あり報酬が、ラベルなしサンプルに対する一貫性ベースの訓練を安定化させ、ラベル付きインスタンスで検証された推論パターンのみがRL訓練に組み込まれることを保証する上で不可欠であるという点である。技術的には、学習軌跡の類似性をラベル付きサンプルと照合することで信頼性の高いラベルなしサンプルを特定する効果的な方策最適化アルゴリズムTraPOを提案する。これを基盤として、TraPOは6つの広く使用されている数学的推論ベンチマーク(AIME24/25、AMC、MATH-500、Minerva、Olympiad)および3つの分布外タスク(ARC-c、GPQA-diamond、MMLU-pro)において、顕著なデータ効率性と強力な汎化性能を達成する。ラベル付きサンプル1,000件とラベルなしサンプル3,000件のみを使用して、TraPOは平均精度42.6%を達成し、ラベルなしサンプル45,000件で訓練した最良の教師なし手法(38.3%)を上回った。特筆すべきは、ラベル付きサンプル4,000件とラベルなしサンプル12,000件を使用した場合、TraPOは全ラベル付きサンプル45,000件で訓練した完全教師ありモデルを全てのベンチマークで凌駕し、ラベル付きデータ量は10%のみで済んだ。コードはhttps://github.com/ShenzhiYang2000/TRAPO で公開されている。
大規模言語モデルにおける安全性調整機構は、学習された拒否行動を通じて有害な問い合わせへの応答を防止するが、これらの同じ機構が認知モデリング、敵対的テスト、セキュリティ分析を含む正当な研究応用を妨げている。アブリテレーション技術は方向直交化による拒否表現の外科的除去を可能にするが、利用可能な実装の相対的有效性は未解明である。本研究は4つのアブリテレーションツール(Heretic、DECCP、ErisForge、FailSpy)を16の指示チューニング済みモデル(7B-14Bパラメータ)で評価し、全16モデルにおけるツール互換性と、ツールサポートによって決定されたサブセットでの定量的指標を報告する。単一パス法はベンチマーク対象サブセットにおいて優れた能力維持を示し(3モデル平均GSM8K変化:ErisForge -0.28 pp、DECCP -0.13 pp)、ベイズ最適化アブリテレーションはモデル依存的な能力影響を伴う可変的な分布シフト(KLダイバージェンス:0.043-1.646)を生じた。これらの知見は、多様なモデルアーキテクチャにわたるアブリテレーションツール導入のための証拠に基づく選択基準を研究者に提供する。主要な発見として、数学的推論能力がアブリテレーション介入に対して最高の感受性を示し、ツール選択とモデルアーキテクチャに依存してGSM8K変化が+1.51 ppから-18.81 pp(相対変化-26.5%)の範囲に及ぶことが明らかとなった。
ワールドモデルは、エンボディエージェントのタスク性能向上において大きな有用性を示してきた。従来の研究は主にピクセル空間のワールドモデルに焦点を当ててきたが、これらのアプローチはGUI設定において実用的な限界に直面する。将来状態における複雑な視覚要素の予測が往々にして困難であるためだ。本研究では、GUIエージェント向けのワールドモデリングの代替的定式化を探求する。具体的には、状態遷移を生のピクセル予測ではなく自然言語で記述する手法である。まず、視覚言語モデル(VLM)がモバイルGUIエージェント向けワールドモデルとして機能する能力を評価するベンチマーク「MobileWorldBench」を導入する。次に、140万サンプルからなる大規模データセット「MobileWorld」を公開し、VLMのワールドモデリング能力を大幅に改善する。最後に、VLMワールドモデルをモバイルエージェントの計画フレームワークに統合する新規フレームワークを提案し、セマンティックなワールドモデルがタスク成功率を向上させることでモバイルエージェントに直接利益をもたらすことを実証する。コードとデータセットはhttps://github.com/jacklishufan/MobileWorld で公開されている。
リモートセンシング画像からの建物抽出は、建物の複雑な構造変化により困難な課題である。既存手法では、セグメンテーションモデル内のマルチスケール特徴を抽出するために畳み込みブロックや自己注意機構ブロックが用いられるが、特徴ピラミッドの本質的な隔たりや、大域的特徴と局所的特徴の統合不足により、不正確で曖昧な抽出結果が生じる。この問題を解決するため、本論文では不確実性モデリングに基づいて高品質な大域-局所視覚的意味情報を活用可能な不確実性集約型大域-局所融合ネットワーク(UAGLNet)を提案する。具体的には、異なる段階でCNN層とトランスフォーマー層をハイブリッドに採用し、それぞれ局所的および大域的な視覚的意味情報を抽出する新規の協調エンコーダを構築した。ネットワークが深層化する際の大域的特徴と局所的特徴の隔たりを縮小するため、中間協調相互作用ブロック(CIB)を設計した。さらに、大域的表現と局所的表現を相補的に融合する大域-局所融合(GLF)モジュールを提案した。加えて、不確実な領域におけるセグメンテーションの曖昧さを軽減するため、画素単位の不確実性を明示的に推定してセグメンテーション精度を向上させる不確実性集約型デコーダ(UAD)を提案した。大規模な実験により、本手法が他の最先端手法を上回る優れた性能を達成することを実証した。コードはhttps://github.com/Dstate/UAGLNet で公開している。
本論文では、画像ベースの日本語学際的マルチモーダル理解ベンチマークであるJMMMU-Proと、スケーラブルな構築手法であるVibe Benchmark Constructionを提案する。MMMUからMMMU-Proへの進化に続き、JMMMU-ProはJMMMUを拡張し、問題画像と問題文を単一の画像に統合することで、視覚的知覚を通じた統合的な視覚-テキスト理解を必要とするベンチマークを構築する。JMMMU-Pro構築のため、画像生成モデル(例:Nano Banana Pro)が候補となる視覚問題を生成し、人間が出力を検証、必要に応じて調整したプロンプトで再生成することで品質を保証するVibe Benchmark Construction手法を提案する。Nano Banana Proの高精細な画像生成能力とクリーンな日本語テキスト埋め込み機能を活用し、多様な背景とレイアウトデザインを網羅した高品質ベンチマークを低コストで構築する。実験結果では、全てのオープンソースLMMがJMMMU-Proに著しく苦戦し、オープンソースコミュニティの将来の発展を導く重要なベンチマークであることを示唆する。JMMMU-ProはLMMの日本語能力評価におけるより厳格な評価ツールを提供し、Vibe Benchmark Constructionは画像ベースVQAベンチマークの将来の開発に対する効率的な指針となると考える。
生成AIの急速な教育領域への統合は、e-ティーチングにおけるデジタル変革を推進しているが、AI教育アプリに対するユーザーの認識は未だ十分に調査されていない。本研究では、Google Play Storeの主要AI教育アプリにおけるユーザーレビューを感情分析により評価し、有効性、課題、教育的示唆を考察する。分析パイプラインは、アプリデータとレビューの収集、二値感情分類におけるRoBERTa、要点抽出におけるGPT-4o、肯定的/否定的テーマの統合におけるGPT-5で構成された。アプリは(例:宿題支援、数学解法、言語ツールなど)7種類に分類され、重複は多機能デザインを反映している。結果は、宿題支援アプリ(Edu AIが95.9%、Answer.AIが92.7%の肯定的感情率)が正確性、速度、個人化で先行し、言語/LMSアプリ(例:Teacher AIは21.8%の肯定的感情率)は不安定性や機能制限により遅れをとるなど、全体的に肯定的感情が優勢であることを示す。肯定的評価はブレインストーミング、問題解決、学習意欲向上の効率性に、否定的評価は有料壁、不正確性、広告、不具合に集中している。傾向として、宿題支援ツールが特化型ツールを凌駕し、依存性や格差のリスクの中でもAIの民主化可能性が浮き彫りとなった。考察では、AIと人間のハイブリッドモデル、没入型学習のためのVR/ARを備えた将来のエコシステムと、開発者(適応的個人化)および政策立案者(包摂性のための収益化規制)に向けたロードマップを提案する。これは、公平で革新的な環境を育む倫理的改良を可能にすることで、e-ティーチングを推進する生成AIの役割を強調する。完全なデータセットはこちら(https://github.com/erfan-nourbakhsh/GenAI-EdSent)で公開されている。
近年、教師なしビデオインスタンスセグメンテーションの最先端技術は、ImageNetなどのオブジェクト中心画像データセットから生成された合成ビデオデータに大きく依存してきた。しかし、画像インスタンスマスクを人為的にシフトおよびスケーリングするビデオ合成手法は、視点の変化、単一または複数インスタンスの部分的な動き、カメラ運動など、現実のビデオにおける正確な動きをモデル化できていない。この問題に対処するため、我々は実写ビデオデータのみで学習した教師なしビデオインスタンスセグメンテーションモデルを提案する。まず個々のビデオフレームに対する教師なしインスタンスセグメンテーションマスクを出発点とする。ただし、これらの単一フレームセグメンテーションは時間的なノイズを含み、その品質はビデオ内でばらつきがある。そこで、深層モーション事前知識を活用してビデオ内の高品質なキーマスクを特定することで、時間的一貫性を確立する。疎なキーマスク擬似アノテーションは、暗黙的なマスク伝搬のためのセグメンテーションモデル学習に用いられ、これにはTemporal DropLossを援用したSparse-To-Dense Distillationアプローチを提案する。生成された高密度ラベルセットで最終モデルを学習後、本手法は様々なベンチマークにおいて現在の最先端技術を凌駕する性能を示す。
現代の機械学習の成功は、高品質な訓練データへのアクセスに依存している。公開リポジトリからのデータ取得や機関間でのデータ共有など、現実の多くのシナリオでは、データは関連性、品質、有用性が異なる個別のデータセットとして自然に編成される。したがって、有用なデータセットを検索するリポジトリや機関の選択、およびモデル訓練に組み込むデータセットの選択は極めて重要な意思決定である。しかし、既存手法の多くは個々のサンプルを選択し、すべてのデータを等しく関連するものとして扱い、データセットとそのソース間の差異を無視している。本研究では、リソース制約下で下流タスクの性能向上を図るために、大規模で不均一なデータセット群からデータセット全体を選択する課題を定式化する。我々は、データセットレベルとグループ(例:コレクション、機関)レベルで有用性をモデル化し、限られた観測から効率的に一般化を可能にするデータセット選択手法DaSH(Dataset Selection via Hierarchies)を提案する。2つの公開ベンチマーク(Digit-FiveとDomainNet)における実験では、DaSHは最先端のデータ選択ベースライン手法と比較して最大26.2%の精度向上を達成し、大幅に少ない探索ステップで済むことを示した。アブレーション研究により、DaSHは低リソース環境や関連データセットの不足に対してロバストであり、実用的なマルチソース学習ワークフローにおけるスケーラブルで適応的なデータセット選択に適していることが確認された。
本論文は、参照的動作表現ビデオセグメンテーションのための大規模マルチモーダルデータセットを提案する。これは、物体の動作に関する言語記述に基づいてビデオ内の対象物体をセグメンテーションおよび追跡することを目的としている。既存の参照的ビデオセグメンテーションデータセットは、顕著な物体に焦点を当て、静的な属性に富んだ言語表現を使用することが多く、単一フレームで対象物体を特定できる可能性がある。このようなデータセットでは、ビデオと言語の両方における動作の役割が十分に強調されていない。動作表現と動作推論の手がかりを用いたピクセルレベルのビデオ理解の実現可能性を探るため、我々はMeViSデータセットを導入する。このデータセットは、複雑なシナリオの2,006本のビデオに含まれる8,171の物体をカバーする、33,072の人手による注釈が付与されたテキストおよび音声の動作表現を含む。我々は、MeViSがサポートする4つのタスクにおいて、既存の15の手法をベンチマークした。これには、6つの参照的ビデオ物体セグメンテーション(RVOS)手法、3つの音声誘導ビデオ物体セグメンテーション(AVOS)手法、2つの参照的複数物体追跡(RMOT)手法、および新たに導入された参照的動作表現生成(RMEG)タスクのための4つのビデオキャプショニング手法が含まれる。結果は、動作表現誘導型ビデオ理解に対処する既存手法の弱点と限界を示している。我々はさらに課題を分析し、RVOS/AVOS/RMOTのための新しい手法LMPM++を提案し、新たなstate-of-the-art結果を達成した。我々のデータセットは、複雑なビデオシーンにおける動作表現誘導型ビデオ理解アルゴリズムの開発を促進するプラットフォームを提供する。提案されたMeViSデータセットと手法のソースコードは、https://henghuiding.com/MeViS/ で公開されている。
大規模視覚言語モデル(VLM)は、印象的な複雑な推論能力を示すが、視覚的逐次計画、すなわち目標に向けた多段階の行動の実行については、未だほとんど研究が進んでいない。さらに、実用的な逐次計画では、最適でない(誤った)ステップが生じることが多く、VLMがそのようなステップを検出し修正する能力が問われる。本研究では、誤りが生じやすい視覚ベースの逐次計画タスクにおいてVLMを評価するため、Corrective Sequential Planning Benchmark(CoSPlan)を提案する。CoSPlanは、迷路ナビゲーション、ブロックの並べ替え、画像再構成、オブジェクトの再編成という4つの領域にわたるタスクを対象とする。CoSPlanは、誤り検出(最適でない行動の特定)とステップ完了(行動系列を修正し目標に到達させる)という2つの重要な能力を評価する。Chain-of-Thoughtやシーングラフなどの最先端の推論技術を用いているにもかかわらず、Intern-VLMやQwen2などのVLMはCoSPlanにおいて苦戦し、文脈の手がかりを活用して目標に到達することができていない。この問題に対処するため、我々は新たな訓練不要の手法、Scene Graph Incremental updates(SGI)を提案する。SGIは初期状態と目標状態の中間にある推論ステップを導入し、VLMが系列について推論するのを助け、平均5.2%の性能向上をもたらした。修正的逐次計画の信頼性を高めることに加えて、SGIはPlan-BenchやVQAのような従来の計画タスクにも一般化可能である。
テキストからビデオ(T2V)生成は急速に進歩しているが、シーンを超えて一貫したキャラクターの同一性を維持することは依然として大きな課題である。既存の個人化手法はしばしば顔の同一性に焦点を当てるが、視覚的一貫性にとって重要な髪型、服装、体型といったより広範な文脈的手がかりを保持できない。我々は、テキストと単一の参照画像からキャラクターに一貫性のあるビデオ生成を実現する、文脈認識拡散フレームワーク「ContextAnyone」を提案する。本手法は参照画像の再構成と新規ビデオフレームの生成を共同で行い、モデルが参照情報を完全に知覚して利用できるようにする。参照情報は、参照を意識した特徴量を選択的に強化し、フレーム間の同一性のドリフトを防ぐ新規のEmphasize-Attentionモジュールを通じて、DiTベースの拡散バックボーンに効果的に統合される。デュアルガイダンス損失は、拡散と参照再構成の目的を組み合わせて外観の忠実性を高め、提案するGap-RoPE位置埋め込みは参照トークンとビデオトークンを分離して時間モデリングを安定させる。実験により、ContextAnyoneが既存の参照動画生成手法を、同一性の一貫性と視覚的品質の両方で上回り、多様な動きやシーンにわたって一貫性があり文脈を保持するキャラクタービデオを生成することを示す。プロジェクトページ: https://github.com/ziyang1106/ContextAnyone