MAGREF: Guida Mascherata per la Generazione di Video con Qualsiasi Riferimento
MAGREF: Masked Guidance for Any-Reference Video Generation
May 29, 2025
Autori: Yufan Deng, Xun Guo, Yuanyang Yin, Jacob Zhiyuan Fang, Yiding Yang, Yizhi Wang, Shenghai Yuan, Angtian Wang, Bo Liu, Haibin Huang, Chongyang Ma
cs.AI
Abstract
La generazione di video ha compiuto progressi significativi con l'avvento di modelli generativi profondi, in particolare approcci basati sulla diffusione. Tuttavia, la generazione di video basata su più soggetti di riferimento affronta ancora sfide considerevoli nel mantenere la coerenza multi-soggetto e garantire un'elevata qualità di generazione. In questo articolo, proponiamo MAGREF, un framework unificato per la generazione di video con qualsiasi riferimento, che introduce una guida mascherata per abilitare la sintesi coerente di video multi-soggetto condizionata da diverse immagini di riferimento e un prompt testuale. Nello specifico, proponiamo (1) un meccanismo di mascheramento dinamico consapevole della regione che consente a un singolo modello di gestire flessibilmente varie inferenze di soggetti, inclusi esseri umani, oggetti e sfondi, senza modifiche architetturali, e (2) un meccanismo di concatenazione canale a livello di pixel che opera sulla dimensione del canale per preservare meglio le caratteristiche di aspetto. Il nostro modello offre una qualità di generazione video all'avanguardia, generalizzando dall'addestramento su singoli soggetti a scenari multi-soggetto complessi con sintesi coerente e controllo preciso sui singoli soggetti, superando le baseline esistenti open-source e commerciali. Per facilitare la valutazione, introduciamo anche un benchmark completo per video multi-soggetto. Esperimenti estesi dimostrano l'efficacia del nostro approccio, aprendo la strada a una sintesi video multi-soggetto scalabile, controllabile e ad alta fedeltà. Codice e modello sono disponibili al seguente link: https://github.com/MAGREF-Video/MAGREF
English
Video generation has made substantial strides with the emergence of deep
generative models, especially diffusion-based approaches. However, video
generation based on multiple reference subjects still faces significant
challenges in maintaining multi-subject consistency and ensuring high
generation quality. In this paper, we propose MAGREF, a unified framework for
any-reference video generation that introduces masked guidance to enable
coherent multi-subject video synthesis conditioned on diverse reference images
and a textual prompt. Specifically, we propose (1) a region-aware dynamic
masking mechanism that enables a single model to flexibly handle various
subject inference, including humans, objects, and backgrounds, without
architectural changes, and (2) a pixel-wise channel concatenation mechanism
that operates on the channel dimension to better preserve appearance features.
Our model delivers state-of-the-art video generation quality, generalizing from
single-subject training to complex multi-subject scenarios with coherent
synthesis and precise control over individual subjects, outperforming existing
open-source and commercial baselines. To facilitate evaluation, we also
introduce a comprehensive multi-subject video benchmark. Extensive experiments
demonstrate the effectiveness of our approach, paving the way for scalable,
controllable, and high-fidelity multi-subject video synthesis. Code and model
can be found at: https://github.com/MAGREF-Video/MAGREF