MAGREF: Orientação Mascarada para Geração de Vídeo com Qualquer Referência
MAGREF: Masked Guidance for Any-Reference Video Generation
May 29, 2025
Autores: Yufan Deng, Xun Guo, Yuanyang Yin, Jacob Zhiyuan Fang, Yiding Yang, Yizhi Wang, Shenghai Yuan, Angtian Wang, Bo Liu, Haibin Huang, Chongyang Ma
cs.AI
Resumo
A geração de vídeos tem feito avanços substanciais com o surgimento de modelos generativos profundos, especialmente abordagens baseadas em difusão. No entanto, a geração de vídeos com base em múltiplos sujeitos de referência ainda enfrenta desafios significativos em manter a consistência de múltiplos sujeitos e garantir alta qualidade de geração. Neste artigo, propomos o MAGREF, um framework unificado para geração de vídeos com qualquer referência, que introduz orientação mascarada para permitir a síntese coerente de vídeos com múltiplos sujeitos condicionada a diversas imagens de referência e um prompt textual. Especificamente, propomos (1) um mecanismo de mascaramento dinâmico consciente da região que permite que um único modelo lide de forma flexível com várias inferências de sujeitos, incluindo humanos, objetos e fundos, sem alterações arquitetônicas, e (2) um mecanismo de concatenação de canais pixel a pixel que opera na dimensão do canal para preservar melhor as características de aparência. Nosso modelo oferece qualidade de geração de vídeos de última geração, generalizando de treinamento com um único sujeito para cenários complexos com múltiplos sujeitos, com síntese coerente e controle preciso sobre os sujeitos individuais, superando as linhas de base de código aberto e comerciais existentes. Para facilitar a avaliação, também introduzimos um benchmark abrangente de vídeos com múltiplos sujeitos. Experimentos extensivos demonstram a eficácia da nossa abordagem, abrindo caminho para a síntese de vídeos com múltiplos sujeitos escalável, controlável e de alta fidelidade. O código e o modelo podem ser encontrados em: https://github.com/MAGREF-Video/MAGREF
English
Video generation has made substantial strides with the emergence of deep
generative models, especially diffusion-based approaches. However, video
generation based on multiple reference subjects still faces significant
challenges in maintaining multi-subject consistency and ensuring high
generation quality. In this paper, we propose MAGREF, a unified framework for
any-reference video generation that introduces masked guidance to enable
coherent multi-subject video synthesis conditioned on diverse reference images
and a textual prompt. Specifically, we propose (1) a region-aware dynamic
masking mechanism that enables a single model to flexibly handle various
subject inference, including humans, objects, and backgrounds, without
architectural changes, and (2) a pixel-wise channel concatenation mechanism
that operates on the channel dimension to better preserve appearance features.
Our model delivers state-of-the-art video generation quality, generalizing from
single-subject training to complex multi-subject scenarios with coherent
synthesis and precise control over individual subjects, outperforming existing
open-source and commercial baselines. To facilitate evaluation, we also
introduce a comprehensive multi-subject video benchmark. Extensive experiments
demonstrate the effectiveness of our approach, paving the way for scalable,
controllable, and high-fidelity multi-subject video synthesis. Code and model
can be found at: https://github.com/MAGREF-Video/MAGREF