ChatPaper.aiChatPaper

MAGREF: Guía Enmascarada para la Generación de Videos con Cualquier Referencia

MAGREF: Masked Guidance for Any-Reference Video Generation

May 29, 2025
Autores: Yufan Deng, Xun Guo, Yuanyang Yin, Jacob Zhiyuan Fang, Yiding Yang, Yizhi Wang, Shenghai Yuan, Angtian Wang, Bo Liu, Haibin Huang, Chongyang Ma
cs.AI

Resumen

La generación de videos ha experimentado avances significativos con la aparición de modelos generativos profundos, especialmente los enfoques basados en difusión. Sin embargo, la generación de videos a partir de múltiples sujetos de referencia aún enfrenta desafíos importantes para mantener la consistencia entre múltiples sujetos y garantizar una alta calidad de generación. En este artículo, proponemos MAGREF, un marco unificado para la generación de videos con cualquier referencia, que introduce guía enmascarada para permitir la síntesis coherente de videos con múltiples sujetos condicionada por diversas imágenes de referencia y un texto descriptivo. Específicamente, proponemos (1) un mecanismo de enmascaramiento dinámico consciente de la región que permite a un único modelo manejar flexiblemente la inferencia de diversos sujetos, incluyendo humanos, objetos y fondos, sin cambios arquitectónicos, y (2) un mecanismo de concatenación de canales a nivel de píxel que opera en la dimensión del canal para preservar mejor las características de apariencia. Nuestro modelo ofrece una calidad de generación de videos de vanguardia, generalizando desde el entrenamiento con un solo sujeto hasta escenarios complejos con múltiples sujetos, logrando una síntesis coherente y un control preciso sobre cada sujeto, superando a las líneas base de código abierto y comerciales existentes. Para facilitar la evaluación, también introducimos un benchmark integral de videos con múltiples sujetos. Experimentos extensos demuestran la efectividad de nuestro enfoque, allanando el camino para una síntesis de videos con múltiples sujetos escalable, controlable y de alta fidelidad. El código y el modelo están disponibles en: https://github.com/MAGREF-Video/MAGREF.
English
Video generation has made substantial strides with the emergence of deep generative models, especially diffusion-based approaches. However, video generation based on multiple reference subjects still faces significant challenges in maintaining multi-subject consistency and ensuring high generation quality. In this paper, we propose MAGREF, a unified framework for any-reference video generation that introduces masked guidance to enable coherent multi-subject video synthesis conditioned on diverse reference images and a textual prompt. Specifically, we propose (1) a region-aware dynamic masking mechanism that enables a single model to flexibly handle various subject inference, including humans, objects, and backgrounds, without architectural changes, and (2) a pixel-wise channel concatenation mechanism that operates on the channel dimension to better preserve appearance features. Our model delivers state-of-the-art video generation quality, generalizing from single-subject training to complex multi-subject scenarios with coherent synthesis and precise control over individual subjects, outperforming existing open-source and commercial baselines. To facilitate evaluation, we also introduce a comprehensive multi-subject video benchmark. Extensive experiments demonstrate the effectiveness of our approach, paving the way for scalable, controllable, and high-fidelity multi-subject video synthesis. Code and model can be found at: https://github.com/MAGREF-Video/MAGREF

Summary

AI-Generated Summary

PDF92May 30, 2025