翻訳付きの日次キュレーションされたAI研究論文
ComfyUI-Copilotを紹介します。これは、AIを活用したアート作成のためのオープンソースプラットフォームであるComfyUIの使いやすさと効率を向上させるために設計された、大規模言語モデルを活用したプラグインです。柔軟性とユーザーフレンドリーなインターフェースを備えているにもかかわらず、ComfyUIは新規ユーザーにとって、ドキュメントの不足、モデルの設定ミス、ワークフロー設計の複雑さといった課題を提示することがあります。ComfyUI-Copilotは、これらの課題に対処するために、インテリジェントなノードとモデルの推奨、および自動化されたワンクリックでのワークフロー構築を提供します。その中核では、タスク委任のための中央アシスタントエージェントと、異なる用途に対応する専門のワーカーエージェントからなる階層型マルチエージェントフレームワークを採用し、デバッグとデプロイを効率化するためにキュレーションされたComfyUIナレッジベースをサポートしています。ComfyUI-Copilotの有効性は、オフラインの定量的評価とオンラインユーザーフィードバックを通じて検証され、ノードの正確な推奨とワークフロー開発の加速が示されています。さらに、ユースケースでは、ComfyUI-Copilotが初心者の参入障壁を下げ、経験豊富なユーザーのワークフロー効率を向上させることが示されています。ComfyUI-Copilotのインストールパッケージとデモ動画は、https://github.com/AIDC-AI/ComfyUI-Copilotで入手可能です。
拡散モデルに基づくビデオ復元(VR)の最近の進展は、視覚品質の大幅な向上を示しているものの、推論時の計算コストが非常に高くなっています。一方、蒸留ベースのアプローチのいくつかは、ワンステップの画像復元の可能性を示していますが、既存のアプローチをVRに拡張することは依然として困難であり、特に実世界の設定での高解像度ビデオを扱う場合には未開拓の領域です。本研究では、SeedVR2と名付けたワンステップの拡散ベースのVRモデルを提案し、実データに対する敵対的VRトレーニングを実行します。ワンステップで高解像度VRを処理するために、モデルアーキテクチャとトレーニング手順の両方にいくつかの改良を加えました。具体的には、出力解像度に合わせてウィンドウサイズを動的に調整する適応型ウィンドウアテンションメカニズムを提案し、事前定義されたウィンドウサイズを使用したウィンドウアテンション下での高解像度VRで観察されるウィンドウの不整合を回避します。さらに、VRに向けた敵対的ポストトレーニングを安定化し改善するために、トレーニング効率を大幅に犠牲にすることなく提案された特徴マッチング損失を含む一連の損失の有効性を検証します。広範な実験により、SeedVR2が既存のVRアプローチと比較してワンステップで同等またはそれ以上の性能を達成できることが示されています。
本研究では、Qwen3基盤モデルを基に構築されたQwen3 Embeddingシリーズを紹介します。これは、前身であるGTE-Qwenシリーズを大幅に進化させたもので、テキスト埋め込みと再ランキングの能力において大きな進歩を遂げています。Qwen3 LLMの多言語テキスト理解と生成における強力な能力を活用し、大規模な教師なし事前学習と高品質データセットを用いた教師あり微調整を組み合わせた革新的な多段階トレーニングパイプラインを採用しています。効果的なモデル統合戦略により、Qwen3 Embeddingシリーズの堅牢性と適応性がさらに確保されています。トレーニングプロセスにおいて、Qwen3 LLMはバックボーンモデルとしてだけでなく、複数のドメインと言語にわたる高品質で豊かで多様なトレーニングデータを合成する上でも重要な役割を果たし、トレーニングパイプラインを強化しています。Qwen3 Embeddingシリーズは、埋め込みと再ランキングのタスクにおいて、0.6B、4B、8Bという幅広いモデルサイズを提供し、効率性または効果性のいずれかを最適化できる多様な展開シナリオに対応しています。実証評価により、Qwen3 Embeddingシリーズが多様なベンチマークで最先端の結果を達成することが示されています。特に、テキスト埋め込みのための多言語評価ベンチマークMTEBや、コード検索、クロスランガル検索、多言語検索を含む様々な検索タスクにおいて優れた性能を発揮します。再現性を促進し、コミュニティ主導の研究開発を推進するため、Qwen3 EmbeddingモデルはApache 2.0ライセンスの下で公開されています。
新興の世界モデルは、カメラの動きやテキストプロンプトなどの制御信号に応答して、オートリグレッシブにビデオフレームを生成する。しかし、時間的なコンテキストウィンドウのサイズが限られているため、これらのモデルは再訪時にシーンの一貫性を維持するのに苦労し、以前に生成された環境を深刻に忘れてしまうことが多い。人間の記憶メカニズムに着想を得て、幾何学的に基づいた長期的空間記憶を通じてビデオ世界モデルの長期的な一貫性を向上させる新しいフレームワークを提案する。本フレームワークには、長期的空間記憶から情報を保存および検索するメカニズムが含まれており、明示的に3D記憶メカニズムを備えた世界モデルを訓練および評価するためのカスタムデータセットをキュレーションする。評価の結果、関連するベースラインと比較して品質、一貫性、およびコンテキスト長が向上し、長期的に一貫した世界生成への道を開くことが示された。
空間参照は、具現化されたロボットが3D物理世界と相互作用するための基本的な能力である。しかし、強力な事前学習済み視覚言語モデル(VLM)を備えていても、最近のアプローチは複雑な3Dシーンを正確に理解し、指示された位置について動的に推論するにはまだ不十分である。このため、我々はRoboReferを提案する。これは、監督微調整(SFT)を介して分離されたが専用の深度エンコーダを統合することで、まず正確な空間理解を実現する3D対応VLMである。さらに、RoboReferは、空間参照タスクに特化したメトリックに敏感なプロセス報酬関数を用いた強化学習微調整(RFT)を介して、一般化された多段階空間推論を進化させる。SFTとRFTのトレーニングをサポートするために、我々はRefSpatialを導入する。これは、31の空間関係(従来の15に対して)をカバーし、複雑な推論プロセス(最大5段階)をサポートする20MのQAペア(従来の2倍)の大規模データセットである。さらに、多段階推論を伴う空間参照の評価におけるギャップを埋める挑戦的なベンチマークであるRefSpatial-Benchを導入する。実験では、SFTでトレーニングされたRoboReferが最先端の空間理解を達成し、平均成功率は89.6%である。RFTでトレーニングされたRoboReferは、他のすべてのベースラインを大きく上回り、RefSpatial-Benchでの平均精度でGemini-2.5-Proを17.4%上回る。特に、RoboReferはさまざまな制御ポリシーと統合でき、雑然とした現実世界のシーンで多様なロボット(例:UR5、G1ヒューマノイド)にわたる長期的で動的なタスクを実行できる。
Transformerモデルは、その二次時間および線形メモリ複雑性のため、長文脈推論に苦戦しています。Recurrent Memory Transformers(RMT)は、漸近コストを線形時間および定数メモリ使用量に削減することで解決策を提供します。しかし、そのメモリ更新メカニズムは逐次実行を引き起こし、パフォーマンスのボトルネックとなります。 本論文では、RMTにおいてセグメント間の並列性を解き放ちながら、正確な再帰を維持するスケジューリング手法であるDiagonal Batchingを提案します。このアプローチは逐次制約を排除し、複雑なバッチ処理やパイプライン技術を必要とせずに、単一の長文脈入力に対する効率的なGPU推論を可能にします。この技術は純粋に実行時の計算順序変更であるため、既存のRMTモデルは再学習なしで採用できます。 LLaMA-1B ARMTモデルに適用した場合、Diagonal Batchingは、標準的な完全注意機構のLLaMA-1Bと比較して3.3倍、逐次RMT実装と比較して1.8倍の高速化を131,072トークン列で達成します。逐次ボトルネックを除去することで、Diagonal Batchingは推論コストとレイテンシを削減し、RMTを現実世界の長文脈アプリケーションに対する実用的なソリューションとして強化します。
大規模言語モデル(LLMs)は通常、膨大な量の無許可テキストを用いて訓練されており、この慣行は知的財産権の侵害や倫理的な懸念から精査の対象となっている。オープンライセンスのテキストを用いてLLMsを訓練することは、これらの問題に対処するための第一歩であるが、これまでのデータ収集の取り組みでは、高性能なLLMsを生成するには小さすぎるか、品質が低いデータセットしか得られていなかった。このギャップを埋めるため、我々はLLMの事前訓練用に設計された8テラバイトのオープンライセンステキストコレクションであるCommon Pile v0.1を収集、キュレーション、および公開した。Common Pileは、研究論文、コード、書籍、百科事典、教育資料、音声文字起こしなど、多様なドメインにわたる30のソースから構成されている。重要なことに、我々はCommon Pileのテキストを用いて2つの70億パラメータのLLMs、Comma v0.1-1TとComma v0.1-2T(それぞれ1兆および2兆トークンで訓練)を訓練し、その努力を検証した。両モデルは、Llama 1および2 7Bなど、同様の計算予算で無許可テキストを用いて訓練されたLLMsと競争力のある性能を達成した。Common Pile v0.1自体の公開に加えて、我々はその作成に使用したコード、およびComma v0.1モデルの訓練混合物とチェックポイントも公開した。
本論文では、コスト効率の高いウェブエージェントであるSurfer-Hを紹介する。Surfer-Hは、ユーザー定義のタスクをウェブ上で実行するためにVision-Language Models(VLM)を統合したものである。これに加えて、ウェブナビゲーションと情報抽出に特化した新しいオープンウェイトのVLMコレクションであるHolo1を開発した。Holo1は、オープンアクセスのウェブコンテンツ、合成例、および自己生成したエージェントデータを含む、慎重に選ばれたデータソースでトレーニングされた。Holo1は、一般的なユーザーインターフェース(UI)ベンチマークだけでなく、新たに開発したウェブUIローカライゼーションベンチマークであるWebClickにおいても最高の性能を発揮する。Holo1を搭載したSurfer-Hは、WebVoyagerにおいて92.2%の最先端の性能を達成し、精度とコスト効率の間でパレート最適なバランスを実現している。エージェントシステムの研究進展を加速するため、WebClick評価データセットとHolo1のモデルウェイトをオープンソースとして公開する。
推論時のスケーリングは、より長いまたはより並列なシーケンスを生成することで効率を犠牲にして推論精度を向上させます。しかし、Transformer LLMにおいて、生成コストは生成されるトークン数ではなく、キー・バリュー(KV)キャッシュのサイズによってボトルネックとなります。そこで、我々は推論時のハイパースケーリングを探求します。KVキャッシュを圧縮することで、同じ計算予算内でより多くのトークンを生成し、スケーリングされた推論の精度をさらに向上させることができます。ただし、このアプローチの成功は、高い圧縮率でも精度を維持できる圧縮手法の能力にかかっています。ハイパースケーリングを実用的にするために、我々はDynamic Memory Sparsification(DMS)を導入します。これは、わずか1Kのトレーニングステップで8倍の圧縮を達成し、トレーニング不要のスパースアテンションよりも優れた精度を維持する、KVキャッシュをスパース化する新しい手法です。DMSは、キャッシュされたトークンを早期に破棄するのではなく、トークンの削除を遅らせ、暗黙的に表現を統合し、重要な情報を保持します。我々は、DMSを用いた推論時のハイパースケーリングの有効性を複数のLLMファミリーで実証し、同等の推論実行時間とメモリ負荷で精度を向上させることを示します。例えば、Qwen-R1 32Bにおいて、AIME 24で平均9.1ポイント、GPQAで7.6ポイント、LiveCodeBenchで9.6ポイントの精度向上を達成しました。
本論文では、フローベース生成モデルを事前分布として活用し、学習可能な潜在空間を任意の目標分布に整合させる新しいフレームワークを提案する。本手法ではまず、目標特徴量に対してフローモデルを事前学習し、基盤となる分布を捉える。この固定されたフローモデルはその後、潜在空間を整合損失によって正則化する。この整合損失は、潜在変数を最適化対象として扱うようにフローマッチング目的関数を再定式化したものである。我々は、この整合損失を最小化することが、目標分布下での潜在変数の対数尤度の変分下限を最大化する計算可能な代理目的関数を確立することを理論的に証明する。特に、提案手法は計算コストの高い尤度評価を排除し、最適化中にODEを解くことを回避する。概念実証として、制御された設定下で整合損失のランドスケープが目標分布の負の対数尤度に極めて近いことを示す。さらに、ImageNetを用いた大規模画像生成実験において、多様な目標分布に対する本手法の有効性を検証し、詳細な議論とアブレーション研究を実施する。理論的および実証的な検証を通じて、本フレームワークは潜在空間整合の新たな道を切り開くものである。
現実世界のビデオ設定における数学的推論は、静止画像やテキストとは根本的に異なる課題を提示します。これには、細かな視覚情報の解釈、手書きまたはデジタルテキストの正確な読み取り、そして時間的に非線形に分散された音声の手がかりの統合が必要です。このようなマルチモーダルな文脈では、成功は単なる知覚だけでなく、豊かでノイズの多いコンテンツの流れから適切な文脈の詳細を選択的に識別し統合することにかかっています。この目的のために、私たちはVideoMathQAを紹介します。これは、モデルがビデオ上で時間的に拡張されたクロスモーダル推論を実行できるかどうかを評価するためのベンチマークです。このベンチマークは10の多様な数学的領域にまたがり、10秒から1時間以上のビデオをカバーします。モデルには、構造化された視覚コンテンツの解釈、指導的なナラティブの理解、そして視覚、音声、テキストのモダリティにわたる概念の共同的な基盤付けが求められます。私たちは大学院レベルの専門家を採用し、合計920人時間以上のアノテーションを確保しました。現実世界のシナリオを反映するために、質問は3つの核心的な推論課題を中心に設計されています:提示された質問に基づいた直接的な問題解決、学んだ方法を新しい問題に適用する必要がある概念的転移、そして拡張された説明と部分的に解決された解決策にわたる多段階の推論を含む深い指導的理解です。各質問には多段階の推論アノテーションが含まれており、モデルの能力の細かな診断を可能にします。このベンチマークを通じて、既存のアプローチの限界を強調し、時間的に拡張されモダリティが豊富な数学的問題設定において、単に知覚するだけでなく推論する必要があるモデルのための体系的な評価フレームワークを確立します。私たちのベンチマークと評価コードは以下で利用可能です:https://mbzuai-oryx.github.io/VideoMathQA
最近のテキストからビデオ(T2V)拡散モデルの進歩により、高忠実度でリアルなビデオ合成が可能になりました。しかし、現在のT2Vモデルは、物理を正確に理解する能力が限られているため、物理的に妥当なコンテンツを生成するのに苦労することが多いです。我々は、T2Vモデル内の表現が物理理解の能力をある程度持っているものの、最近のビデオ自己教師あり学習手法の表現に比べて大きく遅れていることを発見しました。この問題を解決するため、我々はVideoREPAという新しいフレームワークを提案します。このフレームワークは、ビデオ理解基盤モデルから物理理解能力をT2Vモデルに蒸留し、トークンレベルの関係を整列させることで、物理理解のギャップを埋め、より物理的に妥当な生成を可能にします。具体的には、事前学習された強力なT2Vモデルの微調整に適したソフトガイダンスを提供するために、時空間整列を活用したトークン関係蒸留(TRD)損失を導入します。これは、従来の表現整列(REPA)手法とは異なる重要なアプローチです。我々の知る限り、VideoREPAはT2Vモデルの微調整、特に物理知識の注入のために設計された初めてのREPA手法です。実証評価では、VideoREPAがベースラインメソッドであるCogVideoXの物理的常識を大幅に向上させ、関連するベンチマークで著しい改善を達成し、直感的な物理と一致するビデオを生成する強力な能力を示しています。より多くのビデオ結果はhttps://videorepa.github.io/でご覧いただけます。
ビデオ理解の進展にもかかわらず、現在のMLLM(マルチモーダル大規模言語モデル)は計数タスクに苦戦しています。既存のベンチマークは、短いビデオ、閉じたクエリ、手がかりアノテーションの欠如、そして弱いマルチモーダルカバレッジによって制限されています。本論文では、CG-AV-Countingを紹介します。これは、497本の長いビデオにわたる1,027のマルチモーダル質問と5,845のアノテーションされた手がかりを含む、手動でアノテーションされた手がかりに基づく計数ベンチマークです。これはブラックボックスとホワイトボックスの両方の評価をサポートし、エンドツーエンドおよび推論ベースの計数の包括的なテストベッドとして機能します。モデルの計数能力を向上させる方法を探るために、GRPOとカリキュラム学習で訓練されたAV-Reasonerを提案します。AV-Reasonerは、関連タスクから計数能力を一般化するために設計されており、複数のベンチマークで最先端の結果を達成し、強化学習の有効性を実証しています。しかし、実験では、ドメイン外のベンチマークでは、言語空間での推論が性能向上をもたらさないことが示されています。コードとベンチマークはhttps://av-reasoner.github.ioで公開されています。
Deepseek-R1-Distillシリーズに代表される推論モデルは、数学、科学、プログラミングなどの分野で高い性能を発揮することから、オープンソースコミュニティで広く採用されています。しかし、我々の研究によれば、これらのモデルのベンチマーク評価結果は、様々な要因によって大きく変動することが明らかになりました。評価条件の微妙な違いが、結果に大きなばらつきを引き起こすのです。同様の現象は、Deepseek-R1-Distillシリーズを基にファインチューニングされた他のオープンソース推論モデルや、QwQ-32Bモデルでも観察されており、それらが主張する性能向上を確実に再現することが困難です。そのため、我々はモデル性能評価のためのより厳格なパラダイムの確立を提唱し、Deepseek-R1-Distillシリーズモデルに対する我々の実証的評価を提示します。
空間認知は人間の知能において不可欠であり、言語的推論に頼るだけでなく、視覚的シミュレーションを通じて問題解決を可能にします。しかし、既存のAIベンチマークは主に言語的推論を評価しており、非言語的で多段階の視覚的シミュレーションの複雑さを軽視しています。本論文では、STARE(Spatial Transformations and Reasoning Evaluation)を紹介します。これは、多段階の視覚的シミュレーションによってより良く解決されるタスクにおいて、マルチモーダル大規模言語モデルを厳密に評価するために設計されたベンチマークです。STAREは、基礎的な幾何学的変換(2Dおよび3D)、統合された空間推論(立方体の展開図折り畳みやタングラムパズル)、および実世界の空間推論(視点と時間的推論)にわたる4,000のタスクを特徴とし、物体の組み立て、機械図面の解釈、日常的な空間ナビゲーションなどの実践的な認知的課題を反映しています。評価結果によると、モデルは単純な2D変換の推論において優れていますが、多段階の視覚的シミュレーションを必要とする3D立方体の展開図折り畳みやタングラムパズルなどの複雑なタスクではほぼランダムな確率に近い性能を示します。人間は複雑なタスクでほぼ完璧な精度を達成しますが、相当な時間(最大28.9秒)を要し、中間的な視覚的シミュレーションによって大幅に時間を短縮します(平均7.5秒短縮)。一方、モデルは視覚的シミュレーションからの性能向上が一貫せず、ほとんどのタスクで改善が見られるものの、タングラムパズル(GPT-4o, o1)や立方体の展開図折り畳み(Claude-3.5, Gemini-2.0 Flash)などの特定のケースでは性能が低下し、モデルが中間的な視覚情報を効果的に活用する方法を知らない可能性を示唆しています。
検索拡張型言語モデルは、Web検索と大規模言語モデル(LLMs)を組み合わせることで、応答の信憑性と新鮮さを向上させます。しかし、これらのシステムを分析することは依然として困難です。既存のデータセットは規模が限られており、範囲も狭く、しばしば静的な単一ターンのファクトチェック質問に制約されています。本研究では、Search Arenaを紹介します。これは、クラウドソーシングによる大規模な人間の選好データセットで、24,000以上のペアになった多ターンのユーザーインタラクションを検索拡張型LLMsと共に収録しています。このデータセットは多様な意図と言語をカバーし、約12,000の人間の選好投票を含む完全なシステムトレースを提供します。我々の分析によると、ユーザーの選好は引用の数に影響を受けることが明らかになりました。引用された内容が主張を直接支持していない場合でも、認識された信憑性と実際の信憑性の間にギャップがあることがわかりました。さらに、ユーザーの選好は引用元によって異なり、コミュニティ主導のプラットフォームが一般的に好まれる一方で、静的な百科事典的ソースは必ずしも適切で信頼できるとは限らないことが示されました。異なる設定でのパフォーマンスを評価するため、我々はクロスアリーナ分析を行い、検索拡張型LLMsを汎用チャット環境で、従来のLLMsを検索集中型の設定でテストしました。その結果、Web検索は非検索設定でのパフォーマンスを低下させず、むしろ向上させる可能性があることがわかりました。しかし、検索設定での品質は、モデルのパラメトリック知識にのみ依存する場合、大きく影響を受けることが明らかになりました。我々は、この方向性の将来の研究を支援するため、データセットをオープンソース化しました。データセットとコードは以下で利用可能です:https://github.com/lmarena/search-arena。
マルチモーダル大規模言語モデル(MLLMs)は、通常、事前学習済みの大規模言語モデル(LLMs)を視覚能力で拡張することで導出されます。本研究では、MLLMsが視覚入力をどのように処理するかを、そのアテンションメカニズムを分析することで調査します。私たちは驚くべきスパース性現象を明らかにしました:LLMsのアテーションヘッドのうち、視覚理解に積極的に貢献するのはごく一部(約5%未満)であり、これを視覚ヘッドと呼びます。これらのヘッドを効率的に特定するために、ターゲット応答分析を通じてヘッドレベルの視覚的関連性を定量化するトレーニング不要のフレームワークを設計しました。この発見に基づいて、SparseMMを導入します。これは、視覚ヘッドのスパース性を活用してMLLMsの推論を加速するために、視覚スコアに基づいてLLMsのヘッドに非対称な計算予算を割り当てるKVキャッシュ最適化戦略です。視覚の特殊性を無視する従来のKVキャッシュ加速方法と比較して、SparseMMはデコード中の視覚的セマンティクスの強調と保持を優先します。主流のマルチモーダルベンチマークにわたる広範な評価により、SparseMMが優れた精度と効率のトレードオフを達成することが示されています。特に、SparseMMは生成中に1.38倍のリアルタイム加速と52%のメモリ削減を実現し、効率テストでの性能を維持します。私たちのプロジェクトはhttps://github.com/CR400AF-A/SparseMMでオープンソース化されています。
長いシーケンスデータを用いた言語モデルのトレーニングは、複雑なタスク(例:長い連鎖推論)におけるモデルの能力を向上させる上で重要な要件です。しかし、シーケンス長が増大するにつれて、バックプロパゲーション(BP)プロセスにおける活性化値のメモリコストが膨大になり、勾配チェックポイント技術を適用した場合でもその問題は残ります。この課題に対処するため、我々はメモリ効率が高く正確なBP手法であるStreamBPを提案します。StreamBPは、シーケンス次元に沿って連鎖律を層ごとに線形分解することで、活性化値とロジットのメモリコストを大幅に削減します。提案手法は、SFT、GRPO、DPOなどの一般的な目的関数に適用可能です。実装の観点から、StreamBPは言語モデルの因果構造を活用することで、計算FLOPsを削減し、BP速度を向上させます。勾配チェックポイントと比較して、StreamBPはBPの最大シーケンス長を2.8~5.5倍に拡大し、同等またはそれ以下のBP時間で実行できます。なお、StreamBPのシーケンス長スケーリング能力は、バッチサイズのスケーリングに直接転用でき、トレーニングの加速に寄与します。さらに、通信効率の高い分散型StreamBPを開発し、マルチGPUトレーニングを効果的にサポートし、その適用範囲を広げました。我々のコードは、任意のトランスフォーマーモデルのトレーニングパイプラインに容易に統合可能であり、https://github.com/Ledzy/StreamBP で公開しています。
マルチモーダル大規模言語モデル(MLLM)の出現は、エゴセントリックビジョンアプリケーションにおけるブレークスルーを推進してきました。これらのアプリケーションでは、ユーザーが動的で雑然とした環境でツールと相互作用する際に、オブジェクトに対する持続的で文脈を意識した理解が必要とされます。しかし、既存のエンボディドベンチマークは主に静的なシーン探索に焦点を当てており、オブジェクトの外観や空間的属性を重視する一方で、ユーザーの相互作用から生じる動的変化の評価を軽視しています。このギャップを埋めるため、我々はEOC-Benchを導入しました。これは、動的なエゴセントリックシナリオにおけるオブジェクト中心のエンボディド認知を体系的に評価するために設計された革新的なベンチマークです。特に、EOC-Benchは3,277の入念にアノテーションされたQAペアを特徴とし、過去、現在、未来の3つの時間カテゴリに分類され、11の細かい評価次元と3つの視覚的オブジェクト参照タイプをカバーしています。徹底的な評価を確保するため、我々は4種類の質問を含む混合形式のヒューマンインザループアノテーションフレームワークを開発し、オープンエンドの時間評価のための新しいマルチスケール時間精度メトリックを設計しました。EOC-Benchに基づいて、我々は様々なプロプライエタリ、オープンソース、およびオブジェクトレベルのMLLMを包括的に評価しました。EOC-Benchは、MLLMのエンボディドオブジェクト認知能力を向上させるための重要なツールとして機能し、エンボディドシステムの信頼性の高いコアモデルを開発するための堅固な基盤を確立します。
テクスチャマップの生成は3Dモデリングにおいて重要な要素であり、レンダリング品質を決定します。近年、拡散モデルに基づく手法がテクスチャ生成の新たな道を開きました。しかし、制御の柔軟性の制約やプロンプトモダリティの限界により、クリエイターが望む結果を得ることが難しい場合があります。さらに、生成されたマルチビュー画像間の不整合が、テクスチャ生成品質の低下を招くことがあります。これらの課題を解決するため、我々はFlexPainterを提案します。これは、柔軟なマルチモーダル条件付けガイダンスを可能にし、高い一貫性を持つテクスチャ生成を実現する新しいテクスチャ生成パイプラインです。共有された条件付け埋め込み空間を構築し、異なる入力モダリティ間の柔軟な集約を実行します。この埋め込み空間を活用し、構造情報とスタイル情報を分解する画像ベースのCFG手法を提示し、参照画像に基づくスタイライゼーションを実現します。画像拡散事前分布に内在する3D知識を活用し、グリッド表現を用いてマルチビュー画像を同時生成することで、グローバルな理解を強化します。同時に、拡散サンプリング中にビュー同期と適応的重み付けモジュールを提案し、局所的な一貫性をさらに確保します。最後に、3Dを意識したテクスチャ補完モデルとテクスチャ強化モデルを組み合わせることで、シームレスで高解像度のテクスチャマップを生成します。包括的な実験により、我々のフレームワークが柔軟性と生成品質の両面において、最先端の手法を大幅に上回ることが実証されました。
Chain-of-Thought(CoT)は大規模言語モデル(LLMs)における数学的推論を広く向上させてきましたが、これをマルチモーダル領域に拡張することは依然として課題となっています。既存の研究では、画像入力に対して同様のテキストベースの推論を採用するか、数学的CoTに視覚信号を織り交ぜようと試みています。しかし、これらは数学問題解決において3つの主要な制限に直面しています:粗い粒度のボックス形状の画像領域への依存、数学的コンテンツに対する視覚エンコーダの限定的な知覚、視覚的修正のための外部能力への依存です。本論文では、MINT-CoTを提案し、Chain-of-Thought視覚推論のためのMathematical INterleaved Tokensを導入します。MINT-CoTは、Interleave Tokenを介して関連する視覚トークンをテキスト推論ステップに適応的に織り交ぜ、数学図形内の任意の形状の視覚領域を動的に選択します。この能力を強化するために、54Kの数学問題を含むMINT-CoTデータセットを構築し、各推論ステップをトークンレベルで視覚領域と整合させ、厳密なデータ生成パイプラインを伴わせました。さらに、テキストのみのCoT SFT、織り交ぜたCoT SFT、織り交ぜたCoT RLを段階的に組み合わせた3段階のMINT-CoTトレーニング戦略を提示し、MINT-CoT-7Bモデルを導出しました。広範な実験により、数学領域における効果的な視覚的織り交ぜ推論の有効性が実証され、MINT-CoT-7Bはベースラインモデルに対してMathVistaで+34.08%、GeoQAで+28.78%、MMStarで+23.2%の性能向上を示しました。私たちのコードとデータはhttps://github.com/xinyan-cxy/MINT-CoTで公開されています。
深度マップは、フィードフォワード型3Dガウススプラッティング(3DGS)パイプラインにおいて、新規視点合成のために3D点群に逆投影されることで広く利用されています。このアプローチは、効率的な学習、既知のカメラポーズの利用、正確な形状推定といった利点を提供します。しかし、物体境界における深度の不連続性は、断片的または疎な点群を引き起こし、レンダリング品質を低下させます。これは、深度ベース表現のよく知られた制限です。この問題に対処するため、我々はPM-Lossを導入します。これは、事前学習済みトランスフォーマーによって予測されるポイントマップに基づく新しい正則化損失です。ポイントマップ自体は深度マップほど正確ではないかもしれませんが、特に物体境界周辺で幾何学的な滑らかさを効果的に強制します。改善された深度マップにより、我々の手法は様々なアーキテクチャとシーンにわたってフィードフォワード型3DGSを大幅に改善し、一貫して優れたレンダリング結果を提供します。プロジェクトページ: https://aim-uofa.github.io/PMLoss
現在、言語と画像のアラインメントを確立するための最も支配的なアプローチは、CLIPやその派生モデルに見られるように、テキストと画像のエンコーダを対照学習によって共同で事前学習することです。本研究では、そのような高コストな共同訓練が本当に必要かどうかを問い直します。特に、事前学習済みの固定された大規模言語モデル(LLM)が、視覚表現学習を導くのに十分なテキストエンコーダを提供できるかどうかを調査します。つまり、LLMから得られた固定テキストエンコーダを用いて、画像エンコーダのみを訓練することで言語と画像のアラインメントを学習する方法(LIFT)を提案します。驚くべきことに、包括的なベンチマークとアブレーション研究を通じて、この大幅に簡素化されたフレームワークであるLIFTが非常に有効であり、構成理解や長いキャプションを含むほとんどのシナリオでCLIPを上回り、計算効率においても大きな向上を達成することがわかりました。本研究は、LLMからのテキスト埋め込みが視覚学習をどのように導くかを体系的に探る第一歩を踏み出し、言語アラインメントされた視覚表現を学習するための代替的な設計選択を示唆しています。
自己回帰型(AR)画像生成モデルは、合成品質における画期的な進展により注目を集めており、悪用を防ぐための堅牢な透かし技術の必要性が高まっている。しかし、既存の生成中透かし技術は主に拡散モデル向けに設計されており、透かしは拡散潜在状態に埋め込まれる。この設計は、トークン予測を通じて逐次的に画像を生成するARモデルへの直接的な適用に大きな課題を提起する。さらに、拡散ベースの再生成攻撃は、拡散潜在状態を撹乱することで、そのような透かしを効果的に消去することができる。これらの課題に対処するため、我々は再生成攻撃に耐性を持つARモデル向けの新しいフレームワークであるLexical Bias Watermarking(LBW)を提案する。LBWは、生成中にトークン選択を事前定義されたグリーンリストに偏らせることで、透かしを直接トークンマップに埋め込む。このアプローチにより、既存のARモデルとのシームレスな統合が可能となり、事後透かしにも自然に拡張される。ホワイトボックス攻撃に対するセキュリティを高めるため、単一のグリーンリストを使用する代わりに、各画像のグリーンリストはグリーンリストのプールからランダムにサンプリングされる。透かしの検出は、トークン分布の量子化と統計分析を通じて行われる。広範な実験により、LBWが特に再生成攻撃に対する耐性において優れた透かしの堅牢性を達成することが実証された。
音声条件付きの話し手ポートレートの生成と編集は、テキスト、画像、動画などのマルチモーダル入力をガイドとして用いることで、まだ十分に探求されていない領域である。本論文では、高精細で時間的に一貫性のある話し手ポートレート動画を合成するための統一フレームワークであるSkyReels-Audioを提案する。事前学習済みのビデオ拡散トランスフォーマーを基盤として構築された本フレームワークは、無限長の生成と編集をサポートし、マルチモーダル入力による多様で制御可能な条件付けを可能にする。我々は、音声と顔の動きを段階的に整合させるためのハイブリッドカリキュラム学習戦略を採用し、長い動画シーケンスに対するきめ細かいマルチモーダル制御を実現する。局所的な顔の一貫性を向上させるために、顔マスク損失と音声ガイド付きのクラス分類不要ガイダンスメカニズムを導入した。さらに、スライディングウィンドウデノイジングアプローチにより、時間セグメント間の潜在表現を融合させ、長時間および多様なアイデンティティにわたる視覚的忠実度と時間的一貫性を確保する。特に重要なのは、同期された音声、動画、テキスト記述からなる高品質なトリプレットをキュレーションするための専用データパイプラインを構築したことである。包括的なベンチマーク評価により、SkyReels-Audioは、特に複雑で困難な条件下において、リップシンクの精度、アイデンティティの一貫性、現実的な顔のダイナミクスにおいて優れた性能を達成することが示された。
本論文は、複雑な動きを伴う動的3Dシーンの再構築という課題に取り組む。最近の研究では、正規空間に3Dガウシアンプリミティブを定義し、変形フィールドを用いて正規プリミティブを観測空間にマッピングすることで、リアルタイムの動的ビュー合成を実現している。しかし、これらの手法は変形フィールドの最適化が困難なため、複雑な動きを伴うシーンを扱うのに苦労することが多い。この問題を解決するため、我々はFreeTimeGSを提案する。これは、ガウシアンプリミティブが任意の時間と場所に出現できる新しい4D表現である。正規ガウシアンプリミティブとは異なり、我々の表現は高い柔軟性を有しており、動的3Dシーンのモデリング能力を向上させる。さらに、各ガウシアンプリミティブに運動関数を付与し、時間の経過とともに近隣領域に移動できるようにすることで、時間的な冗長性を低減する。複数のデータセットを用いた実験結果から、本手法のレンダリング品質が最近の手法を大きく上回ることが示された。
実用的な効率性の観点からテスト時のスケーリング則を再考し、小型モデルの有効性が過大評価されていることを明らかにします。従来の研究は計算最適性に基づいていましたが、推論時の戦略(例:Best-of-N、長いCoT)によって導入される重要なメモリアクセスのボトルネックを見落としていました。0.6Bから32Bパラメータまでのモデルを網羅した我々の包括的な分析により、計算コストとメモリアクセスコストの両方を考慮した新しいKinetics Scaling Lawを発見し、リソース配分をより適切に導くことができます。Kinetics Scaling Lawは、テスト時の計算リソースは、ある閾値を超えたモデルに使用する方が小型モデルよりも効果的であることを示唆しています。その主な理由は、TTS(テスト時スケーリング)において、パラメータ数ではなくアテンションが主要なコスト要因として浮上するためです。これに基づき、我々はスパースアテンションを中心とした新しいスケーリングパラダイムを提案します。これにより、トークンあたりのコストが削減され、同じリソース予算内でより長い生成とより多くの並列サンプルが可能になります。実証的に、スパースアテンションモデルは密なモデルを一貫して上回り、AIMEにおける問題解決精度において、低コスト領域では60ポイント以上、高コスト領域では5ポイント以上の向上を達成しました。これには最先端のMoE(Mixture of Experts)の評価も含まれます。これらの結果は、スパースアテンションがテスト時スケーリングの真の可能性を実現するために不可欠であることを示唆しています。なぜなら、トレーニングではパラメータスケーリングが飽和するのに対し、テスト時の精度は生成量の増加を通じて向上し続けるからです。コードはhttps://github.com/Infini-AI-Lab/Kineticsで公開されています。
一般物体合成(GOC)は、対象物体を背景シーンに所望の幾何学的特性でシームレスに統合しつつ、その微細な外観詳細を同時に保持することを目指す。最近のアプローチでは、セマンティック埋め込みを導出し、それを高度な拡散モデルに統合することで、幾何学的に編集可能な生成を実現している。しかし、これらの高度にコンパクトな埋め込みは高レベルのセマンティックな手がかりのみを符号化し、必然的に微細な外観詳細を捨象してしまう。本論文では、幾何学的編集と外観保存を分離した拡散モデル(DGAD)を提案する。このモデルは、まずセマンティック埋め込みを活用して所望の幾何学的変換を暗黙的に捕捉し、次にクロスアテンション検索メカニズムを用いて微細な外観特徴を幾何学的に編集された表現と整合させ、物体合成における正確な幾何学的編集と忠実な外観保存の両方を実現する。具体的には、DGADはCLIP/DINO由来の参照ネットワークを基盤として、セマンティック埋め込みと外観保存表現を抽出し、それらを分離した形でエンコーディングおよびデコーディングパイプラインにシームレスに統合する。まず、セマンティック埋め込みを事前学習済みの拡散モデルに統合し、強力な空間推論能力を発揮させて物体の幾何学を暗黙的に捕捉し、柔軟な物体操作を可能にするとともに効果的な編集性を確保する。次に、暗黙的に学習された物体幾何学を活用して外観特徴を検索し、対応する領域と空間的に整合させる密なクロスアテンションメカニズムを設計し、忠実な外観一貫性を保証する。公開ベンチマークでの広範な実験により、提案するDGADフレームワークの有効性が実証された。
転移学習の研究において、スケーリング則は、さまざまな重要な基盤モデルの特性と性能を大規模なスケールで予測するために得られる。本論文では、スケーリング則の導出がモデルとデータセットの比較にも利用できることを示し、事前学習にどの手法を優先すべきかを決定することを可能にする。初めて、CLIPとMaMMUTという2つの重要な言語-視覚学習手法について、モデルとサンプルサイズの広範な範囲にわたる密な測定に基づく完全なスケーリング則が導出された。これらの手法は、対照的な損失のみを使用するか、または対照的な損失とキャプションテキスト生成損失の両方を使用する。保持されたデータポイントに対する十分な予測精度を確保するため、導出されたスケーリング則を使用して両モデルを比較し、MaMMUTがスケールに応じてより強い改善を示し、標準的なCLIPよりも優れたサンプル効率を持つことを示す証拠を得た。比較の妥当性を強化するため、分類、検索、セグメンテーションといったさまざまな下流タスク、およびDataComp、DFN、Re-LAIONといった異なるオープンデータセットに対するスケーリング則を示し、一貫して同じ傾向を観察した。また、学習率スケジュールを一定に保ってスケーリング則を導出する場合でも比較が可能であることを示し、計算コストを削減した。スケーリング則の正確な導出は、単一の参照スケールからの測定に基づく誤った結論を避け、オープンな基盤モデルとその作成のためのデータセットの体系的な比較と改善の道を開く手段を提供する。我々は、中間チェックポイントを含むすべての事前学習済みモデルを公開し、その中にはDataComp-1.4Bの12.8Bサンプルで訓練されたopenMaMMUT-L/14も含まれる。このモデルは、ゼロショットImageNet-1k精度で80.3%を達成している。論文の実験を再現するためのコードと生の実験データは、https://github.com/LAION-AI/scaling-laws-for-comparison で見つけることができる。
私たちは、大規模言語モデル(LLM)エージェントのコーディングベースの医療推論能力を向上させるために設計された、初の公開トレーニング環境であるMedAgentGYMを紹介します。MedAgentGYMは、実際の生物医学シナリオから派生した129のカテゴリにわたる72,413のタスクインスタンスで構成されています。各タスクは実行可能なコーディング環境にカプセル化されており、詳細なタスク説明、インタラクティブなフィードバックメカニズム、検証可能な正解アノテーション、およびスケーラブルなトレーニング軌道生成を備えています。30以上のLLMを対象とした広範なベンチマークにより、商用APIベースのモデルとオープンソースのモデルとの間に顕著な性能差があることが明らかになりました。MedAgentGYMを活用して、Med-Copilot-7Bは教師ありファインチューニング(+36.44%)と継続的な強化学習(+42.47%)を通じて大幅な性能向上を達成し、gpt-4oと競合する手頃でプライバシー保護型の代替手段として登場しました。MedAgentGYMは、統一された実行環境内で包括的なベンチマークとアクセス可能で拡張可能なトレーニングリソースを提供することにより、高度な生物医学研究と実践のためのLLMベースのコーディングアシスタントを開発するための統合プラットフォームを提供します。
既存の視覚エンコーダの多くは、画像を固定長のトークン列にマッピングするが、異なる画像が異なる量の情報を含むという事実を見落としている。例えば、視覚的に複雑な画像(例:散らかった部屋)は、単純な画像(例:真っ白な壁)よりも本質的に多くの情報を有しており、それゆえより多くのトークンを割り当てる価値がある。この非効率性に対処するため、我々はDOVEを提案する。DOVEは、各画像を再構築するために可変数の視覚トークン(すなわち、連続的な表現ベクトル)を生成する動的視覚エンコーダである。我々の結果は、DOVEが高い再構築品質を維持しながら、平均トークン数を大幅に削減することを示している。いくつかの線形プロービングおよび下流のマルチモーダルタスクにおいて、DOVEは固定長エンコーディングと比較して、はるかに少ないトークンを使用しながら、既存のオートエンコーダベースのトークン化手法を上回り、より表現力豊かな意味的特徴を捉える。さらに、我々はDOVEをクエリ条件付きトークン化で拡張する。モデルにクエリ関連領域に焦点を当てるよう導くことで、より効率的でターゲットを絞った意味抽出を実現する。我々のコードとチェックポイントはhttps://dove-encoder.github.io/dove-encoderで公開されている。
3Dガウシアンスプラッティング(3DGS)は、新視点合成や3Dモデリングにおけるリアルタイムのフォトリアルなレンダリングで注目を集めています。しかし、既存の手法では、一時的な物体の影響を受けるシーンを正確にモデル化することが難しく、レンダリング画像にアーティファクトが生じる問題があります。本研究では、シーンの詳細を捉えるために行われるガウシアンの密度化プロセスが、意図せず一時的な乱れをモデル化する追加のガウシアンを生成し、これらのアーティファクトの原因となっていることを明らかにしました。この問題に対処するため、我々はRobustSplatという堅牢なソリューションを提案します。この手法は、2つの重要な設計に基づいています。まず、ガウシアンの分割/複製を許可する前に静的なシーン構造の最適化を優先する遅延ガウシアン成長戦略を導入し、初期最適化段階での一時的物体への過剰適合を軽減します。次に、低解像度の特徴量類似性に基づく監督を活用して信頼性の高い初期の一時的マスク推定を行い、その強い意味的一貫性とノイズに対する頑健性を活かした後、高解像度の監督に進むことでより正確なマスク予測を実現するスケールカスケード型マスクブートストラップ手法を設計しました。複数の挑戦的なデータセットを用いた広範な実験により、本手法が既存手法を上回る性能を示し、その堅牢性と有効性を明確に実証しました。プロジェクトページはhttps://fcyycf.github.io/RobustSplat/です。
ユーザーに代わって意思決定を行う自律エージェントの時代が到来する中、特定のタスクを実行する際にどの情報を共有すべきかという文脈的整合性(Contextual Integrity, CI)の確保が、この分野の中心的な課題となっています。我々は、CIを実現するためには、エージェントが動作している文脈について推論を行う必要があると主張します。これを検証するため、まず、LLMに対して、どの情報を開示するかを決定する際にCIについて明示的に推論するよう促します。次に、このアプローチを拡張し、CIを達成するために必要な推論をモデルにさらに浸透させる強化学習(Reinforcement Learning, RL)フレームワークを開発します。多様な文脈と情報開示の規範を持つ、わずか700例の自動生成された合成データセットを使用して、我々の手法が、複数のモデルサイズやファミリーにわたってタスク性能を維持しつつ、不適切な情報開示を大幅に減少させることを示します。重要なことに、この合成データセットからの改善は、人間によるアノテーションを含み、AIアシスタントの行動やツール呼び出しにおけるプライバシー漏洩を評価するPrivacyLensなどの確立されたCIベンチマークにも転移します。
Rectified Point Flowを紹介します。これは、ペアワイズ点群登録と多パーツ形状アセンブリを単一の条件付き生成問題として定式化する統一パラメータ化手法です。未整列の点群が与えられた場合、本手法はノイズの多い点を目標位置に向けて移動させる連続的な点単位の速度場を学習し、そこからパーツの姿勢を復元します。従来の研究がアドホックな対称性処理を用いてパーツ単位の姿勢を回帰していたのに対し、本手法は対称性ラベルなしにアセンブリの対称性を本質的に学習します。重なり合う点に焦点を当てた自己教師ありエンコーダと組み合わせることで、ペアワイズ登録と形状アセンブリにまたがる6つのベンチマークで新たな最先端の性能を達成しました。特に、この統一的な定式化により、多様なデータセットでの効果的な共同学習が可能となり、共有幾何学的事前知識の学習を促進し、結果として精度を向上させます。プロジェクトページ: https://rectified-pointflow.github.io/
検索拡張生成(RAG)システムは、しばしば「知識の衝突」に悩まされる。これは、検索された外部知識が大規模言語モデル(LLMs)の内在的・パラメトリックな知識と矛盾する現象であり、質問応答(QA)などの下流タスクの性能に悪影響を及ぼす。既存のアプローチでは、二つの知識源を並列に比較することで衝突を緩和しようとするが、これによりLLMsが冗長または長文脈に圧倒され、不整合を特定・緩和する能力が阻害されることがある。この問題に対処するため、本研究では「Micro-Act」というフレームワークを提案する。Micro-Actは、階層的なアクション空間を持ち、文脈の複雑さを自動的に認識し、各知識源を細粒度の比較シーケンスに適応的に分解する。これらの比較はアクション可能なステップとして表現され、表面的な文脈を超えた推論を可能にする。5つのベンチマークデータセットを用いた広範な実験を通じて、Micro-Actは、すべてのデータセットと3種類の衝突タイプにおいて、最先端のベースラインを大幅に上回るQA精度の向上を一貫して達成した。特に、時間的および意味的な衝突タイプでは、すべてのベースラインが著しく失敗する中で顕著な性能を示した。さらに重要なことに、Micro-Actは非衝突質問に対しても同時に堅牢な性能を発揮し、実世界のRAGアプリケーションにおける実用的な価値を強調している。
高品質な動的医療用ビデオの合成は、空間的一貫性と時間的ダイナミクスの両方をモデル化する必要性から、依然として大きな課題となっています。既存のTransformerベースのアプローチでは、チャネル間の相互作用の不足、セルフアテンションに起因する高い計算複雑性、およびノイズレベルの変化に対処する際のタイムステップ埋め込みによる粗いノイズ除去ガイダンスといった重大な制限が存在します。本研究では、これらの問題に対処するために、FEAT(Full-dimensional Efficient Attention Transformer)を提案します。FEATは、以下の3つの主要な革新を通じてこれらの課題を解決します:(1) すべての次元にわたるグローバルな依存関係を捉えるための逐次的な空間-時間-チャネルアテンションメカニズムを統合したパラダイム、(2) 各次元におけるアテンションメカニズムの線形複雑性設計(重み付きキー-バリューアテンションとグローバルチャネルアテンションを活用)、(3) 異なるノイズレベルに適応するためのピクセルレベルの細かいガイダンスを提供する残差値ガイダンスモジュール。FEATを標準ベンチマークおよび下流タスクで評価した結果、FEAT-Sは、最先端モデルEndoraのパラメータ数のわずか23%で、同等またはそれ以上の性能を達成することが示されました。さらに、FEAT-Lは複数のデータセットにおいてすべての比較手法を上回り、優れた有効性とスケーラビリティを実証しています。コードはhttps://github.com/Yaziwel/FEATで公開されています。
画像内の物体の材質を例示画像に基づいて編集することは、コンピュータビジョンとグラフィックスにおける活発な研究領域です。本論文では、CLIP空間内で材質の埋め込みを見つけ、それを事前学習済みのテキストから画像生成モデルを制御するために使用することで、材質のブレンドと微細な材質特性の再構成を行う手法MARBLEを提案します。例示画像に基づく材質編集を改善するために、ノイズ除去UNet内で材質属性を担うブロックを見つけます。2つの材質例示画像が与えられた場合、CLIP空間内で材質をブレンドするための方向を見つけます。さらに、粗さ、金属質、透明性、発光といった微細な材質属性に対するパラメトリック制御を、所望の材質属性変化の方向を予測する浅いネットワークを用いて実現します。提案手法の有効性を示すために、定性的および定量的な分析を行います。また、単一のフォワードパスで複数の編集を実行する能力や、絵画への適用可能性も提示します。 プロジェクトページ: https://marblecontrol.github.io/
テキスト駆動型ビデオ編集は、自然言語の指示に従ってビデオコンテンツを変更することを目的としています。最近のトレーニング不要なアプローチは、事前学習済みの拡散モデルを活用することで進展を遂げていますが、これらは通常、入力ビデオを潜在空間にマッピングする反転ベースの技術に依存しており、しばしば時間的な不整合や構造的な忠実度の低下を引き起こします。この問題に対処するため、我々はFlowDirectorという新しい反転不要のビデオ編集フレームワークを提案します。このフレームワークは、編集プロセスをデータ空間内での直接的な進化としてモデル化し、ビデオを常微分方程式(ODE)によってその内在する時空間多様体に沿って滑らかに遷移させることで、時間的整合性と構造的詳細を保持します。局所的で制御可能な編集を実現するために、ODEの速度場を調整する注意誘導型マスキングメカニズムを導入し、非ターゲット領域を空間的および時間的に保持します。さらに、不完全な編集に対処し、編集指示との意味的整合性を高めるために、Classifier-Free Guidanceにインスパイアされたガイダンス強化型編集戦略を提示します。この戦略は、複数の候補フロー間の差分信号を活用して、構造的一貫性を損なうことなく、編集軌跡をより強い意味的整合性に向けて導きます。ベンチマークにわたる広範な実験により、FlowDirectorが指示の遵守、時間的整合性、背景の保持において最先端の性能を達成し、反転なしで効率的で一貫性のあるビデオ編集の新しいパラダイムを確立することが示されました。
近年のスローシンキング言語モデル(例:OpenAI-o1やDeepSeek-R1)は、人間のような反射的認知を模倣することで、複雑な推論タスクにおいて顕著な能力を示しています。しかし、このような能力をマルチモーダル大規模言語モデル(MLLMs)に拡張することは、基盤となる推論LLMをアップグレードする際に視覚と言語のアライメントを再トレーニングするコストが高いため、依然として困難です。単純な解決策は、知覚と推論を分離すること、つまり視覚入力を言語表現(例:キャプション)に変換し、それを強力なテキスト専用推論器に渡すことです。しかし、この分離には重大な課題が生じます:視覚抽出器は、画像に忠実でありながら、正確な下流推論をサポートするのに十分な情報を提供する記述を生成しなければなりません。これを解決するために、我々は「推論に基づく知覚分離のキャプション報酬最適化(RACRO)」を提案します。これは、抽出器のキャプショニング行動を推論目的に合わせるための推論ガイド型強化学習戦略です。報酬ベースの最適化を通じて知覚と推論のループを閉じることで、RACROは視覚的基盤を大幅に強化し、推論に最適化された表現を抽出します。マルチモーダル数学および科学ベンチマークでの実験では、提案されたRACRO手法が最先端の平均性能を達成し、コストのかかるマルチモーダル再アライメントを必要とせずに、より高度な推論LLMへの優れたスケーラビリティとプラグアンドプレイ適応を可能にすることが示されました。
大規模言語モデル(LLM)のための透かし技術は、出力品質に大きな影響を与える可能性があるが、その真実性、安全性、および有用性への影響は依然として十分に検証されていない。本論文では、2つの主要な透かし手法(GumbelとKGW)が、4つの整備されたLLMにおいてこれらのコアアライメント特性にどのように影響を与えるかを体系的に分析する。実験結果から、2つの異なる劣化パターンが明らかになった:ガード減衰(有用性の向上がモデルの安全性を損なう)とガード増幅(過度の慎重さがモデルの有用性を低下させる)である。これらのパターンは、透かしによって引き起こされるトークン分布の変化から生じ、アライメント目標間の根本的な緊張関係を浮き彫りにする。 これらの劣化を緩和するために、我々はアライメント再サンプリング(AR)を提案する。これは、外部の報酬モデルを使用してアライメントを回復する推論時のサンプリング手法である。サンプルサイズが増加するにつれて期待報酬スコアが改善される理論的下限を確立し、2~4回の透かし生成をサンプリングするだけで、ベースライン(透かしなし)のアライメントスコアを効果的に回復または超えることを実証する。標準的なGumbel透かしの応答多様性の限界を克服するため、修正された実装では厳密な歪みのない性質を犠牲にしつつ、堅牢な検出可能性を維持し、ARとの互換性を確保する。実験結果は、ARが両方の透かし手法においてベースラインアライメントを成功裏に回復し、強力な透かし検出可能性を維持することを確認する。本研究は、透かしの強度とモデルアライメントの間の重要なバランスを明らかにし、透かし付きLLMを実践的に責任を持って展開するためのシンプルな推論時ソリューションを提供する。
正確なLiDAR-カメラキャリブレーションは、自動運転やロボットシステムにおけるマルチモーダル知覚の融合において基本的な要素です。従来のキャリブレーション手法では、制御された環境での大量のデータ収集が必要であり、車両やロボットの移動中に生じる変換の変化に対応できません。本論文では、生データからLiDARカメラキャリブレーションを行うために鳥瞰図(BEV)特徴を利用する初のモデル、BEVCALIBを提案します。これを実現するため、カメラBEV特徴とLiDAR BEV特徴を別々に抽出し、それらを共有BEV特徴空間に融合します。BEV特徴から得られる幾何学的情報を最大限に活用するため、変換デコーダにおいて最も重要な特徴をフィルタリングする新しい特徴セレクタを導入し、メモリ消費を削減し効率的な学習を可能にします。KITTI、NuScenes、および独自のデータセットでの広範な評価により、BEVCALIBが新たな最先端技術を確立することが示されました。様々なノイズ条件下において、BEVCALIBはKITTIデータセットで(47.08%、82.32%)、NuScenesデータセットで(78.17%、68.29%)の平均で(並進、回転)の観点から文献上の最良のベースラインを上回りました。オープンソース領域では、再現可能な最良のベースラインを一桁改善します。コードとデモ結果はhttps://cisl.ucr.edu/BEVCalibで公開されています。
手と物体の相互作用(HOI)生成は、重要な応用可能性を秘めています。しかし、現在の3D HOIモーション生成手法は、事前に定義された3D物体モデルと実験室でキャプチャされたモーションデータに大きく依存しており、汎化能力が制限されています。一方、HOIビデオ生成手法は、ピクセルレベルの視覚的忠実度を優先し、物理的な妥当性を犠牲にすることが多いです。視覚的外観とモーションパターンが現実世界で基本的な物理法則を共有していることを認識し、我々は、視覚的プライアと動的制約を同期拡散プロセス内で組み合わせてHOIビデオとモーションを同時に生成する新しいフレームワークを提案します。異種のセマンティクス、外観、およびモーション特徴を統合するために、我々の手法は、特徴の整合化のためにトリモーダル適応変調を実装し、モーダル間およびモーダル内の依存関係をモデル化するために3Dフルアテンションを組み合わせます。さらに、同期拡散出力から直接明示的な3D相互作用シーケンスを生成し、それらをフィードバックして閉ループフィードバックサイクルを確立するビジョン認識型3D相互作用拡散モデルを導入します。このアーキテクチャは、事前に定義された物体モデルや明示的なポーズガイダンスへの依存を排除し、ビデオとモーションの一貫性を大幅に向上させます。実験結果は、我々の手法が、高忠実度で動的に妥当なHOIシーケンスを生成する際に最先端の手法を凌駕し、未見の現実世界シナリオでの顕著な汎化能力を示しています。プロジェクトページはhttps://github.com/Droliven/SViMo\_projectにあります。
視覚入力から3D占有グリッドを正確に予測することは自動運転において極めて重要ですが、現在の識別モデルベースの手法は、ノイズの多いデータ、不完全な観測、および3Dシーンに内在する複雑な構造に苦戦しています。本研究では、3D占有予測を拡散モデルを用いた生成モデリングタスクとして再定義します。このアプローチでは、基礎となるデータ分布を学習し、3Dシーンの事前知識を組み込むことで、予測の一貫性とノイズ耐性を向上させ、3D空間構造の複雑さをより適切に扱います。大規模な実験により、拡散モデルベースの生成モデルが最先端の識別モデルアプローチを上回り、特に遮蔽された領域や視認性の低い領域において、より現実的で正確な占有予測を実現することが示されました。さらに、改善された予測は下流の経路計画タスクに大きな利益をもたらし、実世界の自動運転アプリケーションにおける本手法の実用的な優位性が明らかになりました。
自動化されたスポーツスキル評価には、熟練者と初心者のパフォーマンスを区別する基本的な動作パターンを捉えることが必要であるが、現在のビデオサンプリング手法は、熟練度評価に不可欠な時間的連続性を妨げている。この目的のために、我々はProficiency-Aware Temporal Sampling(PATS)を導入する。これは、多視点スキル評価のために、連続した時間セグメント内で完全な基本動作を保持する新しいサンプリング戦略である。PATSは、ビデオを適応的にセグメント化し、分析される各部分が重要なパフォーマンス要素の完全な実行を含むようにし、このプロセスを複数のセグメントで繰り返すことで、情報のカバレッジを最大化しつつ時間的整合性を維持する。EgoExo4DベンチマークでSkillFormerを用いて評価した結果、PATSは全ての視点設定において最先端の精度を上回り(+0.65%から+3.05%)、困難な領域でも大幅な向上を示した(+26.22% ボルダリング、+2.39% 音楽、+1.13% バスケットボール)。体系的な分析により、PATSが動的なスポーツのための高頻度サンプリングから、逐次的なスキルのための細かいセグメンテーションまで、多様な活動特性に適応できることが明らかとなり、現実世界のアプリケーションにおける自動化されたスキル評価を進化させる適応的な時間サンプリング手法としての有効性が示された。
CT画像の自動解釈、特に多断面および全身スキャンにおける異常所見の局在化と記述は、臨床放射線学において依然として重要な課題です。本研究は、この課題に対処するために以下の4つの主要な貢献を目指しています。(i) 分類体系に関して、上級放射線科医と協力し、全身の404の代表的な異常所見を含む包括的な階層的分類システムを提案します。(ii) データに関して、多断面および全身のCT画像14,500枚以上を含むデータセットを提供し、19,000以上の異常所見に対して詳細な記述と分類体系に基づいたアノテーションを慎重に付与します。(iii) モデル開発に関して、テキストクエリに基づいて多断面および全身CT画像上の異常所見を自動的に局在化・記述するOminiAbnorm-CTを提案し、視覚的プロンプトを通じた柔軟なインタラクションも可能にします。(iv) ベンチマークに関して、実際の臨床シナリオに基づいた3つの代表的な評価タスクを確立します。大規模な実験を通じて、OminiAbnorm-CTがすべてのタスクと評価指標において既存手法を大幅に上回ることを示します。
自己教師ありモデルによって学習される音声表現は、どの程度言語特異的なのか?これまでの研究では、音声記録のみを用いて訓練されたエンドツーエンドモデルから、さまざまな言語的特徴を成功裏にデコードできることが示されている。しかし、特定の言語で事前訓練を行うことが、言語特異的な言語情報をどの程度向上させるかは、あまり明確ではない。本研究では、自己教師ありWav2Vec2モデルの内部表現におけるオランダ語の音声的および語彙的情報の符号化を検証する。オランダ語のみで事前訓練を行うことで、同量の英語またはより大量の多言語データで事前訓練を行った場合と比較して、オランダ語の言語的特徴の表現が向上する。この言語特異的な利点は、訓練されたクラスタリングまたは分類プローブによってよく検出され、ゼロショット指標を用いても部分的に観察可能である。さらに、言語的特徴の符号化における言語特異的な利点は、自動音声認識における下流タスクの性能と一致している。