MAGREF : Guidage masqué pour la génération de vidéos à référence quelconque

papers.abstract

La génération de vidéos a réalisé des progrès significatifs avec l'émergence de modèles génératifs profonds, en particulier les approches basées sur la diffusion. Cependant, la génération de vidéos à partir de plusieurs sujets de référence continue de rencontrer des défis majeurs pour maintenir la cohérence multi-sujets et assurer une qualité de génération élevée. Dans cet article, nous proposons MAGREF, un cadre unifié pour la génération de vidéos à référence multiple, qui introduit un guidage masqué pour permettre une synthèse vidéo cohérente multi-sujets conditionnée par diverses images de référence et une invite textuelle. Plus précisément, nous proposons (1) un mécanisme de masquage dynamique sensible aux régions qui permet à un seul modèle de gérer de manière flexible diverses inférences de sujets, y compris les humains, les objets et les arrière-plans, sans modifications architecturales, et (2) un mécanisme de concaténation de canaux au niveau des pixels qui opère sur la dimension des canaux pour mieux préserver les caractéristiques d'apparence. Notre modèle offre une qualité de génération vidéo de pointe, généralisant de l'entraînement sur un seul sujet à des scénarios multi-sujets complexes avec une synthèse cohérente et un contrôle précis sur chaque sujet, surpassant les bases de référence open-source et commerciales existantes. Pour faciliter l'évaluation, nous introduisons également un benchmark vidéo multi-sujets complet. Des expériences approfondies démontrent l'efficacité de notre approche, ouvrant la voie à une synthèse vidéo multi-sujets évolutive, contrôlable et de haute fidélité. Le code et le modèle sont disponibles à l'adresse : https://github.com/MAGREF-Video/MAGREF

English

Video generation has made substantial strides with the emergence of deep generative models, especially diffusion-based approaches. However, video generation based on multiple reference subjects still faces significant challenges in maintaining multi-subject consistency and ensuring high generation quality. In this paper, we propose MAGREF, a unified framework for any-reference video generation that introduces masked guidance to enable coherent multi-subject video synthesis conditioned on diverse reference images and a textual prompt. Specifically, we propose (1) a region-aware dynamic masking mechanism that enables a single model to flexibly handle various subject inference, including humans, objects, and backgrounds, without architectural changes, and (2) a pixel-wise channel concatenation mechanism that operates on the channel dimension to better preserve appearance features. Our model delivers state-of-the-art video generation quality, generalizing from single-subject training to complex multi-subject scenarios with coherent synthesis and precise control over individual subjects, outperforming existing open-source and commercial baselines. To facilitate evaluation, we also introduce a comprehensive multi-subject video benchmark. Extensive experiments demonstrate the effectiveness of our approach, paving the way for scalable, controllable, and high-fidelity multi-subject video synthesis. Code and model can be found at: https://github.com/MAGREF-Video/MAGREF

MAGREF : Guidage masqué pour la génération de vidéos à référence quelconque

MAGREF: Masked Guidance for Any-Reference Video Generation

papers.abstract

Support