MAGREF:任意参照動画生成のためのマスク付きガイダンス
MAGREF: Masked Guidance for Any-Reference Video Generation
May 29, 2025
著者: Yufan Deng, Xun Guo, Yuanyang Yin, Jacob Zhiyuan Fang, Yiding Yang, Yizhi Wang, Shenghai Yuan, Angtian Wang, Bo Liu, Haibin Huang, Chongyang Ma
cs.AI
要旨
ビデオ生成は、深層生成モデル、特に拡散ベースのアプローチの登場により、大きな進歩を遂げてきました。しかし、複数の参照対象に基づくビデオ生成では、複数対象の一貫性を維持しつつ高い生成品質を確保することが依然として大きな課題となっています。本論文では、多様な参照画像とテキストプロンプトに基づいて、一貫した複数対象のビデオ合成を可能にするマスク付きガイダンスを導入した、任意参照ビデオ生成のための統一フレームワークであるMAGREFを提案します。具体的には、(1) 単一のモデルがアーキテクチャの変更なしに、人間、物体、背景など様々な対象の推論を柔軟に処理できる地域認識型動的マスキングメカニズム、および(2) チャネル次元で動作し、外観特徴をより良く保存するピクセル単位のチャネル連結メカニズムを提案します。我々のモデルは、単一対象のトレーニングから複雑な複数対象のシナリオまで一般化し、一貫した合成と個々の対象に対する精密な制御を実現し、既存のオープンソースおよび商用のベースラインを上回る、最先端のビデオ生成品質を提供します。評価を容易にするため、包括的な複数対象ビデオベンチマークも導入しました。広範な実験により、我々のアプローチの有効性が実証され、スケーラブルで制御可能かつ高忠実度の複数対象ビデオ合成への道が開かれました。コードとモデルは、https://github.com/MAGREF-Video/MAGREF で公開されています。
English
Video generation has made substantial strides with the emergence of deep
generative models, especially diffusion-based approaches. However, video
generation based on multiple reference subjects still faces significant
challenges in maintaining multi-subject consistency and ensuring high
generation quality. In this paper, we propose MAGREF, a unified framework for
any-reference video generation that introduces masked guidance to enable
coherent multi-subject video synthesis conditioned on diverse reference images
and a textual prompt. Specifically, we propose (1) a region-aware dynamic
masking mechanism that enables a single model to flexibly handle various
subject inference, including humans, objects, and backgrounds, without
architectural changes, and (2) a pixel-wise channel concatenation mechanism
that operates on the channel dimension to better preserve appearance features.
Our model delivers state-of-the-art video generation quality, generalizing from
single-subject training to complex multi-subject scenarios with coherent
synthesis and precise control over individual subjects, outperforming existing
open-source and commercial baselines. To facilitate evaluation, we also
introduce a comprehensive multi-subject video benchmark. Extensive experiments
demonstrate the effectiveness of our approach, paving the way for scalable,
controllable, and high-fidelity multi-subject video synthesis. Code and model
can be found at: https://github.com/MAGREF-Video/MAGREFSummary
AI-Generated Summary