ChatPaper.aiChatPaper

DreamVideo-2: Personalização de Vídeo Dirigida por Assunto sem Necessidade de Treinamento com Controle Preciso de Movimento

DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control

October 17, 2024
Autores: Yujie Wei, Shiwei Zhang, Hangjie Yuan, Xiang Wang, Haonan Qiu, Rui Zhao, Yutong Feng, Feng Liu, Zhizhong Huang, Jiaxin Ye, Yingya Zhang, Hongming Shan
cs.AI

Resumo

Os avanços recentes na geração de vídeos personalizados permitiram aos usuários criar vídeos adaptados a assuntos específicos e trajetórias de movimento. No entanto, os métodos existentes frequentemente exigem ajustes complicados no momento do teste e têm dificuldade em equilibrar a aprendizagem do assunto e o controle de movimento, limitando suas aplicações no mundo real. Neste artigo, apresentamos o DreamVideo-2, um framework de personalização de vídeo de zero-shot capaz de gerar vídeos com um assunto específico e trajetória de movimento, guiado por uma única imagem e uma sequência de caixas delimitadoras, respectivamente, e sem a necessidade de ajustes complicados no momento do teste. Especificamente, introduzimos a atenção de referência, que aproveita as capacidades inerentes do modelo para aprendizagem do assunto, e desenvolvemos um módulo de movimento guiado por máscara para obter controle preciso de movimento, utilizando totalmente o sinal de movimento robusto das máscaras de caixa derivadas das caixas delimitadoras. Enquanto esses dois componentes alcançam suas funções pretendidas, observamos empiricamente que o controle de movimento tende a dominar a aprendizagem do assunto. Para lidar com isso, propomos dois projetos-chave: 1) a atenção de referência mascarada, que integra um esquema de modelagem de máscara latente misturada na atenção de referência para aprimorar as representações do assunto nas posições desejadas, e 2) uma perda de difusão reponderada, que diferencia as contribuições das regiões dentro e fora das caixas delimitadoras para garantir um equilíbrio entre o controle do assunto e do movimento. Resultados experimentais extensivos em um conjunto de dados recém-curado demonstram que o DreamVideo-2 supera os métodos de ponta tanto na personalização do assunto quanto no controle de movimento. O conjunto de dados, código e modelos serão disponibilizados publicamente.
English
Recent advances in customized video generation have enabled users to create videos tailored to both specific subjects and motion trajectories. However, existing methods often require complicated test-time fine-tuning and struggle with balancing subject learning and motion control, limiting their real-world applications. In this paper, we present DreamVideo-2, a zero-shot video customization framework capable of generating videos with a specific subject and motion trajectory, guided by a single image and a bounding box sequence, respectively, and without the need for test-time fine-tuning. Specifically, we introduce reference attention, which leverages the model's inherent capabilities for subject learning, and devise a mask-guided motion module to achieve precise motion control by fully utilizing the robust motion signal of box masks derived from bounding boxes. While these two components achieve their intended functions, we empirically observe that motion control tends to dominate over subject learning. To address this, we propose two key designs: 1) the masked reference attention, which integrates a blended latent mask modeling scheme into reference attention to enhance subject representations at the desired positions, and 2) a reweighted diffusion loss, which differentiates the contributions of regions inside and outside the bounding boxes to ensure a balance between subject and motion control. Extensive experimental results on a newly curated dataset demonstrate that DreamVideo-2 outperforms state-of-the-art methods in both subject customization and motion control. The dataset, code, and models will be made publicly available.

Summary

AI-Generated Summary

PDF252November 16, 2024