TrackGo: Un Metodo Flessibile ed Efficiente per la Generazione Controllabile di Video
TrackGo: A Flexible and Efficient Method for Controllable Video Generation
August 21, 2024
Autori: Haitao Zhou, Chuang Wang, Rui Nie, Jinxiao Lin, Dongdong Yu, Qian Yu, Changhu Wang
cs.AI
Abstract
Negli ultimi anni si è registrato un progresso significativo nella generazione controllata di video basata su modelli di diffusione. Tuttavia, ottenere un controllo preciso in scenari complessi, che includono parti dettagliate degli oggetti, traiettorie di movimento sofisticate e movimenti coerenti dello sfondo, rimane una sfida. In questo articolo, presentiamo TrackGo, un approccio innovativo che sfrutta maschere a forma libera e frecce per la generazione condizionata di video. Questo metodo offre agli utenti un meccanismo flessibile e preciso per manipolare il contenuto video. Proponiamo inoltre il TrackAdapter per l'implementazione del controllo, un adattatore efficiente e leggero progettato per essere integrato senza soluzione di continuità negli strati di auto-attenzione temporale di un modello pre-addestrato per la generazione di video. Questo design si basa sulla nostra osservazione che la mappa di attenzione di questi strati può attivare con precisione le regioni corrispondenti al movimento nei video. I nostri risultati sperimentali dimostrano che il nuovo approccio, potenziato dal TrackAdapter, raggiunge prestazioni all'avanguardia su metriche chiave come FVD, FID e punteggi ObjMC. La pagina del progetto TrackGo è disponibile all'indirizzo: https://zhtjtcz.github.io/TrackGo-Page/
English
Recent years have seen substantial progress in diffusion-based controllable
video generation. However, achieving precise control in complex scenarios,
including fine-grained object parts, sophisticated motion trajectories, and
coherent background movement, remains a challenge. In this paper, we introduce
TrackGo, a novel approach that leverages free-form masks and arrows for
conditional video generation. This method offers users with a flexible and
precise mechanism for manipulating video content. We also propose the
TrackAdapter for control implementation, an efficient and lightweight adapter
designed to be seamlessly integrated into the temporal self-attention layers of
a pretrained video generation model. This design leverages our observation that
the attention map of these layers can accurately activate regions corresponding
to motion in videos. Our experimental results demonstrate that our new
approach, enhanced by the TrackAdapter, achieves state-of-the-art performance
on key metrics such as FVD, FID, and ObjMC scores. The project page of TrackGo
can be found at: https://zhtjtcz.github.io/TrackGo-Page/