MAGREF: Gemaskerde Begeleiding voor Generatie van Video's met Willekeurige Referentie
MAGREF: Masked Guidance for Any-Reference Video Generation
May 29, 2025
Auteurs: Yufan Deng, Xun Guo, Yuanyang Yin, Jacob Zhiyuan Fang, Yiding Yang, Yizhi Wang, Shenghai Yuan, Angtian Wang, Bo Liu, Haibin Huang, Chongyang Ma
cs.AI
Samenvatting
Videogeneratie heeft aanzienlijke vooruitgang geboekt met de opkomst van diepe generatieve modellen, met name diffusiegebaseerde benaderingen. Echter blijft videogeneratie op basis van meerdere referentieonderwerpen aanzienlijke uitdagingen ondervinden bij het handhaven van multi-onderwerpconsistentie en het waarborgen van hoge generatiekwaliteit. In dit artikel stellen we MAGREF voor, een uniform raamwerk voor videogeneratie met elke referentie, dat gemaskeerde begeleiding introduceert om coherente multi-onderwerp videosynthese mogelijk te maken, gebaseerd op diverse referentiebeelden en een tekstuele prompt. Specifiek stellen we (1) een regio-bewust dynamisch maskeringsmechanisme voor dat een enkel model in staat stelt flexibel om te gaan met verschillende onderwerpinferenties, waaronder mensen, objecten en achtergronden, zonder architectuurwijzigingen, en (2) een pixelgewijs kanaalconcatenatiemechanisme dat werkt op de kanaaldimensie om uiterlijkkenmerken beter te behouden. Ons model levert state-of-the-art videogeneratiekwaliteit, generaliserend van training met één onderwerp naar complexe multi-onderwerpscenario's met coherente synthese en precieze controle over individuele onderwerpen, waarbij het bestaande open-source en commerciële baselines overtreft. Om evaluatie te vergemakkelijken, introduceren we ook een uitgebreide multi-onderwerp videobenchmark. Uitgebreide experimenten tonen de effectiviteit van onze aanpak aan, waardoor de weg wordt vrijgemaakt voor schaalbare, controleerbare en hoogwaardige multi-onderwerp videosynthese. Code en model zijn te vinden op: https://github.com/MAGREF-Video/MAGREF
English
Video generation has made substantial strides with the emergence of deep
generative models, especially diffusion-based approaches. However, video
generation based on multiple reference subjects still faces significant
challenges in maintaining multi-subject consistency and ensuring high
generation quality. In this paper, we propose MAGREF, a unified framework for
any-reference video generation that introduces masked guidance to enable
coherent multi-subject video synthesis conditioned on diverse reference images
and a textual prompt. Specifically, we propose (1) a region-aware dynamic
masking mechanism that enables a single model to flexibly handle various
subject inference, including humans, objects, and backgrounds, without
architectural changes, and (2) a pixel-wise channel concatenation mechanism
that operates on the channel dimension to better preserve appearance features.
Our model delivers state-of-the-art video generation quality, generalizing from
single-subject training to complex multi-subject scenarios with coherent
synthesis and precise control over individual subjects, outperforming existing
open-source and commercial baselines. To facilitate evaluation, we also
introduce a comprehensive multi-subject video benchmark. Extensive experiments
demonstrate the effectiveness of our approach, paving the way for scalable,
controllable, and high-fidelity multi-subject video synthesis. Code and model
can be found at: https://github.com/MAGREF-Video/MAGREF