TrackGo : Une méthode flexible et efficace pour la génération contrôlable de vidéos
TrackGo: A Flexible and Efficient Method for Controllable Video Generation
August 21, 2024
Auteurs: Haitao Zhou, Chuang Wang, Rui Nie, Jinxiao Lin, Dongdong Yu, Qian Yu, Changhu Wang
cs.AI
Résumé
Les dernières années ont vu des progrès substantiels dans la génération de vidéos contrôlables basée sur la diffusion. Cependant, obtenir un contrôle précis dans des scénarios complexes, incluant des parties d'objets à grain fin, des trajectoires de mouvement sophistiquées et un mouvement de fond cohérent, reste un défi. Dans cet article, nous présentons TrackGo, une nouvelle approche qui exploite des masques et des flèches de forme libre pour la génération conditionnelle de vidéos. Cette méthode offre aux utilisateurs un mécanisme flexible et précis pour manipuler le contenu vidéo. Nous proposons également le TrackAdapter pour l'implémentation du contrôle, un adaptateur efficace et léger conçu pour être intégré de manière transparente dans les couches d'auto-attention temporelle d'un modèle de génération vidéo pré-entraîné. Cette conception exploite notre observation selon laquelle la carte d'attention de ces couches peut activer avec précision les régions correspondant au mouvement dans les vidéos. Nos résultats expérimentaux démontrent que notre nouvelle approche, améliorée par le TrackAdapter, atteint des performances de pointe sur des métriques clés telles que les scores FVD, FID et ObjMC. La page du projet TrackGo est disponible sur : https://zhtjtcz.github.io/TrackGo-Page/
English
Recent years have seen substantial progress in diffusion-based controllable
video generation. However, achieving precise control in complex scenarios,
including fine-grained object parts, sophisticated motion trajectories, and
coherent background movement, remains a challenge. In this paper, we introduce
TrackGo, a novel approach that leverages free-form masks and arrows for
conditional video generation. This method offers users with a flexible and
precise mechanism for manipulating video content. We also propose the
TrackAdapter for control implementation, an efficient and lightweight adapter
designed to be seamlessly integrated into the temporal self-attention layers of
a pretrained video generation model. This design leverages our observation that
the attention map of these layers can accurately activate regions corresponding
to motion in videos. Our experimental results demonstrate that our new
approach, enhanced by the TrackAdapter, achieves state-of-the-art performance
on key metrics such as FVD, FID, and ObjMC scores. The project page of TrackGo
can be found at: https://zhtjtcz.github.io/TrackGo-Page/Summary
AI-Generated Summary