TrackGo: Eine flexible und effiziente Methode zur kontrollierbaren Videogenerierung
TrackGo: A Flexible and Efficient Method for Controllable Video Generation
August 21, 2024
Autoren: Haitao Zhou, Chuang Wang, Rui Nie, Jinxiao Lin, Dongdong Yu, Qian Yu, Changhu Wang
cs.AI
Zusammenfassung
In den letzten Jahren gab es erhebliche Fortschritte bei der kontrollierbaren Videogenerierung auf der Basis von Diffusion. Dennoch bleibt die präzise Steuerung in komplexen Szenarien, einschließlich feingliedriger Objektteile, anspruchsvoller Bewegungsbahnen und kohärenter Hintergrundbewegungen, eine Herausforderung. In diesem Artikel stellen wir TrackGo vor, einen neuartigen Ansatz, der freiform Masken und Pfeile für die bedingte Videogenerierung nutzt. Diese Methode bietet Benutzern einen flexiblen und präzisen Mechanismus zur Manipulation von Videoinhalten. Wir schlagen auch den TrackAdapter für die Implementierung der Steuerung vor, einen effizienten und leichten Adapter, der darauf ausgelegt ist, nahtlos in die zeitlichen Selbst-Aufmerksamkeitsschichten eines vorab trainierten Videogenerierungsmodells integriert zu werden. Dieses Design nutzt unsere Beobachtung, dass die Aufmerksamkeitskarte dieser Schichten Regionen genau aktivieren kann, die Bewegungen in Videos entsprechen. Unsere experimentellen Ergebnisse zeigen, dass unser neuer Ansatz, verstärkt durch den TrackAdapter, Spitzenleistungen bei wichtigen Metriken wie FVD, FID und ObjMC-Scores erzielt. Die Projektseite von TrackGo finden Sie unter: https://zhtjtcz.github.io/TrackGo-Page/
English
Recent years have seen substantial progress in diffusion-based controllable
video generation. However, achieving precise control in complex scenarios,
including fine-grained object parts, sophisticated motion trajectories, and
coherent background movement, remains a challenge. In this paper, we introduce
TrackGo, a novel approach that leverages free-form masks and arrows for
conditional video generation. This method offers users with a flexible and
precise mechanism for manipulating video content. We also propose the
TrackAdapter for control implementation, an efficient and lightweight adapter
designed to be seamlessly integrated into the temporal self-attention layers of
a pretrained video generation model. This design leverages our observation that
the attention map of these layers can accurately activate regions corresponding
to motion in videos. Our experimental results demonstrate that our new
approach, enhanced by the TrackAdapter, achieves state-of-the-art performance
on key metrics such as FVD, FID, and ObjMC scores. The project page of TrackGo
can be found at: https://zhtjtcz.github.io/TrackGo-Page/Summary
AI-Generated Summary