MAGREF: Maskierte Steuerung für die Videoerzeugung mit beliebigem Referenzmaterial
MAGREF: Masked Guidance for Any-Reference Video Generation
May 29, 2025
Autoren: Yufan Deng, Xun Guo, Yuanyang Yin, Jacob Zhiyuan Fang, Yiding Yang, Yizhi Wang, Shenghai Yuan, Angtian Wang, Bo Liu, Haibin Huang, Chongyang Ma
cs.AI
Zusammenfassung
Die Videogenerierung hat mit dem Aufkommen tiefer generativer Modelle, insbesondere diffusionsbasierter Ansätze, erhebliche Fortschritte gemacht. Dennoch steht die Videogenerierung basierend auf mehreren Referenzobjekten weiterhin vor erheblichen Herausforderungen, insbesondere bei der Aufrechterhaltung der Konsistenz mehrerer Objekte und der Sicherstellung einer hohen Generierungsqualität. In diesem Artikel stellen wir MAGREF vor, ein einheitliches Framework für die any-reference Videogenerierung, das eine maskierte Steuerung einführt, um eine kohärente Multi-Objekt-Videosynthese zu ermöglichen, die auf verschiedenen Referenzbildern und einem Textprompt basiert. Konkret schlagen wir (1) einen regionsbewussten dynamischen Maskierungsmechanismus vor, der es einem einzelnen Modell ermöglicht, flexibel verschiedene Objektinferenzen, einschließlich Menschen, Objekte und Hintergründe, ohne architektonische Änderungen zu handhaben, und (2) einen pixelweisen Kanalverknüpfungsmechanismus, der auf der Kanaldimension operiert, um Erscheinungsmerkmale besser zu bewahren. Unser Modell liefert eine state-of-the-art Videogenerierungsqualität, die sich von der Einzelobjekt-Schulung auf komplexe Multi-Objektszenarien mit kohärenter Synthese und präziser Kontrolle über einzelne Objekte verallgemeinert und dabei bestehende Open-Source- und kommerzielle Baselines übertrifft. Um die Bewertung zu erleichtern, führen wir außerdem einen umfassenden Multi-Objekt-Video-Benchmark ein. Umfangreiche Experimente demonstrieren die Wirksamkeit unseres Ansatzes und ebnen den Weg für skalierbare, kontrollierbare und hochwertige Multi-Objekt-Videosynthese. Code und Modell sind verfügbar unter: https://github.com/MAGREF-Video/MAGREF
English
Video generation has made substantial strides with the emergence of deep
generative models, especially diffusion-based approaches. However, video
generation based on multiple reference subjects still faces significant
challenges in maintaining multi-subject consistency and ensuring high
generation quality. In this paper, we propose MAGREF, a unified framework for
any-reference video generation that introduces masked guidance to enable
coherent multi-subject video synthesis conditioned on diverse reference images
and a textual prompt. Specifically, we propose (1) a region-aware dynamic
masking mechanism that enables a single model to flexibly handle various
subject inference, including humans, objects, and backgrounds, without
architectural changes, and (2) a pixel-wise channel concatenation mechanism
that operates on the channel dimension to better preserve appearance features.
Our model delivers state-of-the-art video generation quality, generalizing from
single-subject training to complex multi-subject scenarios with coherent
synthesis and precise control over individual subjects, outperforming existing
open-source and commercial baselines. To facilitate evaluation, we also
introduce a comprehensive multi-subject video benchmark. Extensive experiments
demonstrate the effectiveness of our approach, paving the way for scalable,
controllable, and high-fidelity multi-subject video synthesis. Code and model
can be found at: https://github.com/MAGREF-Video/MAGREFSummary
AI-Generated Summary