ChatPaper.aiChatPaper

MAGREF: Gemaskerde Begeleiding voor Generatie van Video's met Willekeurige Referentie

MAGREF: Masked Guidance for Any-Reference Video Generation

May 29, 2025
Auteurs: Yufan Deng, Xun Guo, Yuanyang Yin, Jacob Zhiyuan Fang, Yiding Yang, Yizhi Wang, Shenghai Yuan, Angtian Wang, Bo Liu, Haibin Huang, Chongyang Ma
cs.AI

Samenvatting

Videogeneratie heeft aanzienlijke vooruitgang geboekt met de opkomst van diepe generatieve modellen, met name diffusiegebaseerde benaderingen. Echter blijft videogeneratie op basis van meerdere referentieonderwerpen aanzienlijke uitdagingen ondervinden bij het handhaven van multi-onderwerpconsistentie en het waarborgen van hoge generatiekwaliteit. In dit artikel stellen we MAGREF voor, een uniform raamwerk voor videogeneratie met elke referentie, dat gemaskeerde begeleiding introduceert om coherente multi-onderwerp videosynthese mogelijk te maken, gebaseerd op diverse referentiebeelden en een tekstuele prompt. Specifiek stellen we (1) een regio-bewust dynamisch maskeringsmechanisme voor dat een enkel model in staat stelt flexibel om te gaan met verschillende onderwerpinferenties, waaronder mensen, objecten en achtergronden, zonder architectuurwijzigingen, en (2) een pixelgewijs kanaalconcatenatiemechanisme dat werkt op de kanaaldimensie om uiterlijkkenmerken beter te behouden. Ons model levert state-of-the-art videogeneratiekwaliteit, generaliserend van training met één onderwerp naar complexe multi-onderwerpscenario's met coherente synthese en precieze controle over individuele onderwerpen, waarbij het bestaande open-source en commerciële baselines overtreft. Om evaluatie te vergemakkelijken, introduceren we ook een uitgebreide multi-onderwerp videobenchmark. Uitgebreide experimenten tonen de effectiviteit van onze aanpak aan, waardoor de weg wordt vrijgemaakt voor schaalbare, controleerbare en hoogwaardige multi-onderwerp videosynthese. Code en model zijn te vinden op: https://github.com/MAGREF-Video/MAGREF
English
Video generation has made substantial strides with the emergence of deep generative models, especially diffusion-based approaches. However, video generation based on multiple reference subjects still faces significant challenges in maintaining multi-subject consistency and ensuring high generation quality. In this paper, we propose MAGREF, a unified framework for any-reference video generation that introduces masked guidance to enable coherent multi-subject video synthesis conditioned on diverse reference images and a textual prompt. Specifically, we propose (1) a region-aware dynamic masking mechanism that enables a single model to flexibly handle various subject inference, including humans, objects, and backgrounds, without architectural changes, and (2) a pixel-wise channel concatenation mechanism that operates on the channel dimension to better preserve appearance features. Our model delivers state-of-the-art video generation quality, generalizing from single-subject training to complex multi-subject scenarios with coherent synthesis and precise control over individual subjects, outperforming existing open-source and commercial baselines. To facilitate evaluation, we also introduce a comprehensive multi-subject video benchmark. Extensive experiments demonstrate the effectiveness of our approach, paving the way for scalable, controllable, and high-fidelity multi-subject video synthesis. Code and model can be found at: https://github.com/MAGREF-Video/MAGREF
PDF92May 30, 2025