TrackGo: Een flexibele en efficiënte methode voor beheerbare videogeneratie
TrackGo: A Flexible and Efficient Method for Controllable Video Generation
August 21, 2024
Auteurs: Haitao Zhou, Chuang Wang, Rui Nie, Jinxiao Lin, Dongdong Yu, Qian Yu, Changhu Wang
cs.AI
Samenvatting
De afgelopen jaren is er aanzienlijke vooruitgang geboekt in op diffusie gebaseerde, controleerbare videogeneratie. Het bereiken van precieze controle in complexe scenario's, waaronder fijnmazige objectonderdelen, geavanceerde bewegingsbanen en samenhangende achtergrondbeweging, blijft echter een uitdaging. In dit artikel introduceren we TrackGo, een nieuwe aanpak die gebruikmaakt van vrij vormgegeven maskers en pijlen voor conditionele videogeneratie. Deze methode biedt gebruikers een flexibel en precies mechanisme om video-inhoud te manipuleren. We stellen ook de TrackAdapter voor voor de implementatie van controle, een efficiënte en lichtgewicht adapter die naadloos kan worden geïntegreerd in de temporele zelf-attentielagen van een voorgetraind videogeneratiemodel. Dit ontwerp maakt gebruik van onze observatie dat de aandachtkaart van deze lagen regio's die overeenkomen met beweging in video's nauwkeurig kan activeren. Onze experimentele resultaten tonen aan dat onze nieuwe aanpak, versterkt door de TrackAdapter, state-of-the-art prestaties bereikt op belangrijke metrieken zoals FVD, FID en ObjMC-scores. De projectpagina van TrackGo is te vinden op: https://zhtjtcz.github.io/TrackGo-Page/
English
Recent years have seen substantial progress in diffusion-based controllable
video generation. However, achieving precise control in complex scenarios,
including fine-grained object parts, sophisticated motion trajectories, and
coherent background movement, remains a challenge. In this paper, we introduce
TrackGo, a novel approach that leverages free-form masks and arrows for
conditional video generation. This method offers users with a flexible and
precise mechanism for manipulating video content. We also propose the
TrackAdapter for control implementation, an efficient and lightweight adapter
designed to be seamlessly integrated into the temporal self-attention layers of
a pretrained video generation model. This design leverages our observation that
the attention map of these layers can accurately activate regions corresponding
to motion in videos. Our experimental results demonstrate that our new
approach, enhanced by the TrackAdapter, achieves state-of-the-art performance
on key metrics such as FVD, FID, and ObjMC scores. The project page of TrackGo
can be found at: https://zhtjtcz.github.io/TrackGo-Page/Summary
AI-Generated Summary