TrackGo: Um Método Flexível e Eficiente para Geração de Vídeo Controlável
TrackGo: A Flexible and Efficient Method for Controllable Video Generation
August 21, 2024
Autores: Haitao Zhou, Chuang Wang, Rui Nie, Jinxiao Lin, Dongdong Yu, Qian Yu, Changhu Wang
cs.AI
Resumo
Os últimos anos têm visto um progresso substancial na geração de vídeos controláveis baseada em difusão. No entanto, alcançar controle preciso em cenários complexos, incluindo partes de objetos detalhadas, trajetórias de movimento sofisticadas e movimento de plano de fundo coerente, continua sendo um desafio. Neste artigo, apresentamos o TrackGo, uma abordagem inovadora que utiliza máscaras e setas de forma livre para geração condicional de vídeos. Este método oferece aos usuários um mecanismo flexível e preciso para manipular o conteúdo de vídeo. Também propomos o TrackAdapter para implementação de controle, um adaptador eficiente e leve projetado para ser integrado perfeitamente nas camadas temporais de autoatenção de um modelo de geração de vídeo pré-treinado. Este design aproveita nossa observação de que o mapa de atenção dessas camadas pode ativar com precisão regiões correspondentes a movimento em vídeos. Nossos resultados experimentais demonstram que nossa nova abordagem, aprimorada pelo TrackAdapter, alcança desempenho de ponta em métricas-chave como FVD, FID e escores ObjMC. A página do projeto TrackGo pode ser encontrada em: https://zhtjtcz.github.io/TrackGo-Page/
English
Recent years have seen substantial progress in diffusion-based controllable
video generation. However, achieving precise control in complex scenarios,
including fine-grained object parts, sophisticated motion trajectories, and
coherent background movement, remains a challenge. In this paper, we introduce
TrackGo, a novel approach that leverages free-form masks and arrows for
conditional video generation. This method offers users with a flexible and
precise mechanism for manipulating video content. We also propose the
TrackAdapter for control implementation, an efficient and lightweight adapter
designed to be seamlessly integrated into the temporal self-attention layers of
a pretrained video generation model. This design leverages our observation that
the attention map of these layers can accurately activate regions corresponding
to motion in videos. Our experimental results demonstrate that our new
approach, enhanced by the TrackAdapter, achieves state-of-the-art performance
on key metrics such as FVD, FID, and ObjMC scores. The project page of TrackGo
can be found at: https://zhtjtcz.github.io/TrackGo-Page/Summary
AI-Generated Summary