翻訳付きの日次キュレーションされたAI研究論文
マルチモーダル大規模言語モデル(MLLMs)は静止画像において顕著な能力を発揮するものの、今日のデジタル環境で主流である動的で情報密度の高いショートフォーム動画の理解にはしばしば限界を示す。このギャップを埋めるため、我々はKwai Keye-VLを導入する。これは80億パラメータを有するマルチモーダル基盤モデルであり、ショート動画理解において最先端の性能を発揮しつつ、汎用的な視覚-言語能力も堅牢に維持する。Keye-VLの開発は、2つの核心的な柱に基づいている。1つは、動画に重点を置いた6000億トークンを超える大規模で高品質なデータセット、もう1つは革新的なトレーニング手法である。この手法は、視覚-言語の整合性を確立するための4段階の事前学習プロセスと、緻密な2段階の事後学習プロセスを特徴とする。最初の事後学習段階では、指示追従などの基盤能力を強化し、第2段階では高度な推論能力を刺激することに焦点を当てる。この第2段階では、5つのモードからなる「コールドスタート」データ混合が重要な革新点であり、「思考」、「非思考」、「自動思考」、「画像付き思考」、および高品質な動画データを含む。この混合により、モデルはいつ、どのように推論を行うかを学習する。その後、強化学習(RL)と整合性のステップを経て、これらの推論能力がさらに強化され、繰り返し出力などの異常なモデル挙動が修正される。我々のアプローチを検証するため、広範な評価を行い、Keye-VLが公開されている動画ベンチマークで最先端の結果を達成し、一般的な画像ベースのタスクにおいても高い競争力を維持することを示す(図1)。さらに、現実世界のショート動画シナリオに特化した新しいベンチマークであるKC-MMBenchを開発・公開し、Keye-VLがその中で顕著な優位性を示すことを確認した。
アニメーションの彩色は、実写アニメーション産業の制作において重要な部分を占めています。長編アニメーションの彩色は、高い人件費を伴います。そのため、ビデオ生成モデルに基づく長編アニメーションの自動彩色は、重要な研究価値を持ちます。既存の研究は、短期間の彩色に限定されています。これらの研究は、局所的なパラダイムを採用し、重複する特徴を融合させることで、局所的なセグメント間の滑らかな遷移を実現しています。しかし、局所的なパラダイムは、グローバルな情報を無視しており、長期的な色の一貫性を維持することができません。本研究では、理想的な長期的な色の一貫性は、動的なグローバル-ローカルパラダイム、すなわち、現在の生成に関連するグローバルな色の一貫性のある特徴を動的に抽出することで達成できると主張します。具体的には、SketchDiT、Dynamic Global-Local Memory (DGLM)、およびColor Consistency Rewardを含む新しいフレームワークであるLongAnimationを提案します。SketchDiTは、DGLMモジュールをサポートするためにハイブリッド参照特徴を捕捉します。DGLMモジュールは、長編ビデオ理解モデルを使用して、グローバルな歴史的特徴を動的に圧縮し、現在の生成特徴と適応的に融合します。色の一貫性を洗練するために、Color Consistency Rewardを導入します。推論中に、ビデオセグメントの遷移を滑らかにするために、色の一貫性融合を提案します。短期間(14フレーム)および長期間(平均500フレーム)のアニメーションに対する広範な実験により、LongAnimationがオープンドメインのアニメーション彩色タスクにおいて、短期間および長期間の色の一貫性を維持する効果を示しています。コードはhttps://cn-makers.github.io/long_animation_web/で確認できます。
Depth Anything at Any Condition(DepthAnything-AC)を提案する。これは、多様な環境条件に対応可能な基盤的な単眼深度推定(MDE)モデルである。従来の基盤的MDEモデルは一般的なシーンにおいて高い性能を発揮するが、照明変動、悪天候、センサー起因の歪みなどの複雑な現実世界の環境では十分な性能を発揮できない。データ不足や劣化した画像から高品質な擬似ラベルを生成できないという課題を克服するため、比較的少量のラベルなしデータのみを必要とする教師なし一貫性正則化ファインチューニングパラダイムを提案する。さらに、パッチレベルの相対的関係を明示的に学習させるための空間距離制約(Spatial Distance Constraint)を導入し、より明確なセマンティック境界と正確な詳細を実現する。実験結果は、DepthAnything-ACが現実世界の悪天候ベンチマーク、合成劣化ベンチマーク、および一般的なベンチマークにおいて、ゼロショット能力を発揮することを示している。 プロジェクトページ: https://ghost233lism.github.io/depthanything-AC-page コード: https://github.com/HVision-NKU/DepthAnythingAC
視覚と言語の基盤モデルが、マルチモーダル理解、推論、生成において目覚ましい進展を遂げたことで、その知能を物理世界に拡張しようとする取り組みが活発化し、視覚-言語-行動(VLA)モデルの発展が加速している。一見多様なアプローチが存在するように見えるが、現在のVLAモデルは単一のフレームワークの下で統合可能であることが観察される。すなわち、視覚と言語の入力は一連のVLAモジュールによって処理され、次第に具体的で実行可能な情報をエンコードする一連のアクショントークンを生成し、最終的に実行可能な行動を生成する。さらに、VLAモデルを区別する主要な設計選択は、アクショントークンがどのように形成されるかにあり、それは言語記述、コード、アフォーダンス、軌跡、目標状態、潜在表現、生の行動、推論に分類できることが明らかとなった。しかし、アクショントークンに関する包括的な理解は依然として不足しており、効果的なVLA開発を大きく妨げ、将来の方向性を曖昧にしている。したがって、本調査は、アクショントークン化の観点から既存のVLA研究を分類・解釈し、各トークンタイプの長所と限界を抽出し、改善すべき領域を特定することを目的とする。この体系的なレビューと分析を通じて、VLAモデルのより広範な進化に関する統合的な展望を提供し、未開拓ながら有望な方向性を強調し、将来の研究に対する指針を提供することで、この分野が汎用人工知能に近づくことを期待する。
本論文では、異なるセマンティクスやレイアウトを持つ入力に対応する、初のチューニング不要な画像モーフィング手法であるFreeMorphを提案します。既存の手法は事前学習済み拡散モデルのファインチューニングに依存し、時間的制約やセマンティクス/レイアウトの不一致に制限されるのに対し、FreeMorphはインスタンスごとの学習を必要とせずに高忠実度の画像モーフィングを実現します。チューニング不要な手法は効率性と潜在能力を有するものの、多段階のノイズ除去プロセスの非線形性や事前学習済み拡散モデルから継承されるバイアスにより、高品質な結果を維持する上で課題に直面しています。本論文では、これらの課題に対処するため、2つの主要なイノベーションを統合したFreeMorphを紹介します。1) まず、入力画像からの明示的なガイダンスを組み込むガイダンス対応球面補間設計を提案し、セルフアテンションモジュールを修正することでアイデンティティの喪失を防ぎ、生成シーケンス全体を通じた方向性のある遷移を保証します。2) さらに、各入力画像から導出されたセルフアテンションモジュールをブレンドするステップ指向の変動トレンドを導入し、両方の入力を尊重した制御された一貫性のある遷移を実現します。広範な評価により、FreeMorphが既存の手法を上回り、10倍から50倍の高速化を達成し、画像モーフィングにおける新たな最先端技術を確立することが実証されました。
本論文では、自己回帰型画像生成を高速化するためのLocality-aware Parallel Decoding (LPD)を提案する。従来の自己回帰型画像生成は、メモリバウンドなプロセスである次のパッチ予測に依存しており、高いレイテンシを引き起こす。既存の研究では、次のパッチ予測をマルチパッチ予測に移行することで並列化を試み、プロセスの高速化を図ってきたが、限定的な並列化しか達成できなかった。高い並列化を実現しつつ生成品質を維持するために、我々は2つの重要な技術を導入する:(1) Flexible Parallelized Autoregressive Modelingは、任意の生成順序と並列化度を可能にする新しいアーキテクチャである。これは、学習可能な位置クエリトークンを使用してターゲット位置での生成を導きつつ、並列に生成されるトークン間の相互可視性を確保し、一貫した並列デコードを実現する。(2) Locality-aware Generation Orderingは、グループ内の依存関係を最小化し、文脈的サポートを最大化する新しいスケジューリング手法であり、生成品質を向上させる。これらの設計により、ImageNetのクラス条件付き生成において、生成ステップを256×256解像度では256から20に、512×512解像度では1024から48に削減し、品質を損なうことなく、従来の並列化自己回帰モデルと比較して少なくとも3.4倍低いレイテンシを達成した。
機械学習の科学的応用では、特定の領域に特化した小型のモデルがしばしば用いられる。これらのモデルは優れた性能を発揮するが、柔軟性に欠ける。一方、基盤モデルは汎用性を提供するものの、特に非伝統的なモダリティやロングテール領域においては、特化型アプローチに比べて性能が劣る傾向がある。本研究では、MARVIS(Modality Adaptive Reasoning over VISualizations)を提案する。これは、訓練を必要とせず、小型の視覚言語モデルであっても高い精度で任意のデータモダリティを予測可能にする手法である。MARVISは潜在埋め込み空間を視覚表現に変換し、視覚言語モデルが持つ空間的かつ細粒度の推論能力を活用して、それらを解釈・利用する。MARVISは、単一の3Bパラメータモデルを用いて、視覚、音声、生物学的、表形式の各領域において競争力のある性能を達成し、Geminiを平均16%上回る結果を示し、特化型手法に接近する性能を発揮する。これにより、個人識別情報(P.I.I.)を露出させることなく、また領域固有の訓練を必要とせずに、高い精度を実現する。我々は、コードとデータセットをhttps://github.com/penfever/marvisで公開している。
従来のテキストガイド型動画編集手法は、時間的な不整合、モーションの歪み、そして最も顕著なものとしてドメイン変換の制限に悩まされることが多い。これらの制限は、編集プロセスにおける時空間ピクセル関連性のモデリングが不十分であることに起因すると考えられる。この問題に対処するため、我々はSTR-Matchを提案する。これは、新たに開発したSTRスコアに基づく潜在最適化を通じて、視覚的に魅力的で時空間的に一貫した動画を生成するトレーニング不要の動画編集アルゴリズムである。このスコアは、テキストから動画(T2V)への拡散モデルにおいて、2D空間的注意機構と1D時間的モジュールを活用することで、隣接フレーム間の時空間ピクセル関連性を捉えるものであり、計算コストの高い3D注意機構のオーバーヘッドを伴わない。潜在マスクを組み込んだ潜在最適化フレームワークに統合されたSTR-Matchは、時間的に一貫性があり視覚的に忠実な動画を生成し、重要な視覚的属性を保持しながらも、大幅なドメイン変換下でも高い性能を維持する。広範な実験により、STR-Matchが視覚品質と時空間的一貫性の両面において、既存の手法を一貫して上回ることが実証された。
顔の動きと音声の本質的な関連性は、生成モデリングにおいてしばしば見過ごされており、トーキングヘッド合成とテキスト音声合成(TTS)は通常、別々のタスクとして扱われています。本論文では、顔の動きと音声を同時に合成し、条件付けするための統一フレームワークであるJAM-Flowを紹介します。我々のアプローチは、フローマッチングと新たなマルチモーダル拡散トランスフォーマー(MM-DiT)アーキテクチャを活用し、専門的なMotion-DiTとAudio-DiTモジュールを統合しています。これらは、選択的ジョイントアテンションレイヤーを介して結合され、時間的に整列した位置埋め込みや局所的なジョイントアテンションマスキングなどの重要なアーキテクチャ上の選択肢を取り入れることで、効果的なクロスモーダル相互作用を可能にしつつ、モダリティ固有の強みを保持します。インペインティングスタイルの目的関数で訓練されたJAM-Flowは、テキスト、参照音声、参照モーションなど、幅広い条件付け入力をサポートし、テキストからの同期したトーキングヘッド生成、音声駆動アニメーションなど、多様なタスクを単一の一貫したモデル内で実現します。JAM-Flowは、ホリスティックなオーディオビジュアル合成のための実用的なソリューションを提供することで、マルチモーダル生成モデリングを大きく前進させます。プロジェクトページ: https://joonghyuk.com/jamflow-web
対面コミュニケーションは、人間の一般的な活動として、インタラクティブな頭部生成の研究を動機付けています。仮想エージェントは、他のユーザーや自身の音声または動作信号に基づいて、リスニングとスピーキングの両方の能力を備えたモーション応答を生成することができます。しかし、従来のクリップ単位の生成パラダイムや明示的なリスナー/スピーカー生成器切り替え手法は、将来の信号取得、文脈的行動理解、切り替えの滑らかさにおいて制限があり、リアルタイムかつ現実的な生成を困難にしていました。本論文では、より良いインタラクションの現実感を実現するために、オートリグレッシブ(AR)ベースのフレーム単位のフレームワークであるARIGを提案します。リアルタイム生成を実現するために、モーション予測を非ベクトル量子化されたARプロセスとしてモデル化します。離散コードブックインデックス予測とは異なり、拡散プロセスを使用してモーション分布を表現し、連続空間でのより正確な予測を実現します。インタラクションの現実感を向上させるために、インタラクティブ行動理解(IBU)と詳細な会話状態理解(CSU)を重視します。IBUでは、デュアルトラックデュアルモーダル信号に基づいて、双方向統合学習を通じて短期的な行動を要約し、長期的な文脈理解を行います。CSUでは、音声活動信号とIBUの文脈特徴を使用して、実際の会話に存在するさまざまな状態(中断、フィードバック、ポーズなど)を理解します。これらは、最終的な段階的モーション予測の条件として機能します。広範な実験により、我々のモデルの有効性が検証されました。