TrackGo: Um Método Flexível e Eficiente para Geração de Vídeo Controlável

Resumo

Os últimos anos têm visto um progresso substancial na geração de vídeos controláveis baseada em difusão. No entanto, alcançar controle preciso em cenários complexos, incluindo partes de objetos detalhadas, trajetórias de movimento sofisticadas e movimento de plano de fundo coerente, continua sendo um desafio. Neste artigo, apresentamos o TrackGo, uma abordagem inovadora que utiliza máscaras e setas de forma livre para geração condicional de vídeos. Este método oferece aos usuários um mecanismo flexível e preciso para manipular o conteúdo de vídeo. Também propomos o TrackAdapter para implementação de controle, um adaptador eficiente e leve projetado para ser integrado perfeitamente nas camadas temporais de autoatenção de um modelo de geração de vídeo pré-treinado. Este design aproveita nossa observação de que o mapa de atenção dessas camadas pode ativar com precisão regiões correspondentes a movimento em vídeos. Nossos resultados experimentais demonstram que nossa nova abordagem, aprimorada pelo TrackAdapter, alcança desempenho de ponta em métricas-chave como FVD, FID e escores ObjMC. A página do projeto TrackGo pode ser encontrada em: https://zhtjtcz.github.io/TrackGo-Page/

English

Recent years have seen substantial progress in diffusion-based controllable video generation. However, achieving precise control in complex scenarios, including fine-grained object parts, sophisticated motion trajectories, and coherent background movement, remains a challenge. In this paper, we introduce TrackGo, a novel approach that leverages free-form masks and arrows for conditional video generation. This method offers users with a flexible and precise mechanism for manipulating video content. We also propose the TrackAdapter for control implementation, an efficient and lightweight adapter designed to be seamlessly integrated into the temporal self-attention layers of a pretrained video generation model. This design leverages our observation that the attention map of these layers can accurately activate regions corresponding to motion in videos. Our experimental results demonstrate that our new approach, enhanced by the TrackAdapter, achieves state-of-the-art performance on key metrics such as FVD, FID, and ObjMC scores. The project page of TrackGo can be found at: https://zhtjtcz.github.io/TrackGo-Page/

TrackGo: Um Método Flexível e Eficiente para Geração de Vídeo Controlável

TrackGo: A Flexible and Efficient Method for Controllable Video Generation

Resumo

Summary

Support

Support