MAGREF : Guidage masqué pour la génération de vidéos à référence quelconque
MAGREF: Masked Guidance for Any-Reference Video Generation
May 29, 2025
Auteurs: Yufan Deng, Xun Guo, Yuanyang Yin, Jacob Zhiyuan Fang, Yiding Yang, Yizhi Wang, Shenghai Yuan, Angtian Wang, Bo Liu, Haibin Huang, Chongyang Ma
cs.AI
Résumé
La génération de vidéos a réalisé des progrès significatifs avec l'émergence de modèles génératifs profonds, en particulier les approches basées sur la diffusion. Cependant, la génération de vidéos à partir de plusieurs sujets de référence continue de rencontrer des défis majeurs pour maintenir la cohérence multi-sujets et assurer une qualité de génération élevée. Dans cet article, nous proposons MAGREF, un cadre unifié pour la génération de vidéos à référence multiple, qui introduit un guidage masqué pour permettre une synthèse vidéo cohérente multi-sujets conditionnée par diverses images de référence et une invite textuelle. Plus précisément, nous proposons (1) un mécanisme de masquage dynamique sensible aux régions qui permet à un seul modèle de gérer de manière flexible diverses inférences de sujets, y compris les humains, les objets et les arrière-plans, sans modifications architecturales, et (2) un mécanisme de concaténation de canaux au niveau des pixels qui opère sur la dimension des canaux pour mieux préserver les caractéristiques d'apparence. Notre modèle offre une qualité de génération vidéo de pointe, généralisant de l'entraînement sur un seul sujet à des scénarios multi-sujets complexes avec une synthèse cohérente et un contrôle précis sur chaque sujet, surpassant les bases de référence open-source et commerciales existantes. Pour faciliter l'évaluation, nous introduisons également un benchmark vidéo multi-sujets complet. Des expériences approfondies démontrent l'efficacité de notre approche, ouvrant la voie à une synthèse vidéo multi-sujets évolutive, contrôlable et de haute fidélité. Le code et le modèle sont disponibles à l'adresse : https://github.com/MAGREF-Video/MAGREF
English
Video generation has made substantial strides with the emergence of deep
generative models, especially diffusion-based approaches. However, video
generation based on multiple reference subjects still faces significant
challenges in maintaining multi-subject consistency and ensuring high
generation quality. In this paper, we propose MAGREF, a unified framework for
any-reference video generation that introduces masked guidance to enable
coherent multi-subject video synthesis conditioned on diverse reference images
and a textual prompt. Specifically, we propose (1) a region-aware dynamic
masking mechanism that enables a single model to flexibly handle various
subject inference, including humans, objects, and backgrounds, without
architectural changes, and (2) a pixel-wise channel concatenation mechanism
that operates on the channel dimension to better preserve appearance features.
Our model delivers state-of-the-art video generation quality, generalizing from
single-subject training to complex multi-subject scenarios with coherent
synthesis and precise control over individual subjects, outperforming existing
open-source and commercial baselines. To facilitate evaluation, we also
introduce a comprehensive multi-subject video benchmark. Extensive experiments
demonstrate the effectiveness of our approach, paving the way for scalable,
controllable, and high-fidelity multi-subject video synthesis. Code and model
can be found at: https://github.com/MAGREF-Video/MAGREFSummary
AI-Generated Summary