ChatPaper.aiChatPaper

MAGREF: Маскированное управление для генерации видео с произвольной опорой

MAGREF: Masked Guidance for Any-Reference Video Generation

May 29, 2025
Авторы: Yufan Deng, Xun Guo, Yuanyang Yin, Jacob Zhiyuan Fang, Yiding Yang, Yizhi Wang, Shenghai Yuan, Angtian Wang, Bo Liu, Haibin Huang, Chongyang Ma
cs.AI

Аннотация

Генерация видео достигла значительных успехов с появлением глубоких генеративных моделей, особенно подходов на основе диффузии. Однако генерация видео на основе нескольких референсных объектов по-прежнему сталкивается с серьезными проблемами в поддержании согласованности между несколькими объектами и обеспечении высокого качества генерации. В данной статье мы представляем MAGREF, унифицированную структуру для генерации видео с любыми референсами, которая вводит маскированное управление для создания согласованных видео с несколькими объектами, основанных на разнообразных референсных изображениях и текстовом запросе. В частности, мы предлагаем (1) механизм динамического маскирования с учетом регионов, который позволяет одной модели гибко обрабатывать различные объекты, включая людей, объекты и фоны, без изменения архитектуры, и (2) механизм поэлементной конкатенации каналов, работающий на уровне каналов для лучшего сохранения визуальных характеристик. Наша модель демонстрирует наивысшее качество генерации видео, обобщаясь от обучения на одном объекте до сложных сценариев с несколькими объектами, обеспечивая согласованную синтезацию и точный контроль над каждым объектом, превосходя существующие открытые и коммерческие базовые подходы. Для облегчения оценки мы также представляем комплексный бенчмарк для видео с несколькими объектами. Многочисленные эксперименты подтверждают эффективность нашего подхода, прокладывая путь к масштабируемой, управляемой и высококачественной синтезации видео с несколькими объектами. Код и модель доступны по адресу: https://github.com/MAGREF-Video/MAGREF.
English
Video generation has made substantial strides with the emergence of deep generative models, especially diffusion-based approaches. However, video generation based on multiple reference subjects still faces significant challenges in maintaining multi-subject consistency and ensuring high generation quality. In this paper, we propose MAGREF, a unified framework for any-reference video generation that introduces masked guidance to enable coherent multi-subject video synthesis conditioned on diverse reference images and a textual prompt. Specifically, we propose (1) a region-aware dynamic masking mechanism that enables a single model to flexibly handle various subject inference, including humans, objects, and backgrounds, without architectural changes, and (2) a pixel-wise channel concatenation mechanism that operates on the channel dimension to better preserve appearance features. Our model delivers state-of-the-art video generation quality, generalizing from single-subject training to complex multi-subject scenarios with coherent synthesis and precise control over individual subjects, outperforming existing open-source and commercial baselines. To facilitate evaluation, we also introduce a comprehensive multi-subject video benchmark. Extensive experiments demonstrate the effectiveness of our approach, paving the way for scalable, controllable, and high-fidelity multi-subject video synthesis. Code and model can be found at: https://github.com/MAGREF-Video/MAGREF

Summary

AI-Generated Summary

PDF92May 30, 2025