TrackGo: Un Método Flexible y Eficiente para la Generación Controlable de Videos
TrackGo: A Flexible and Efficient Method for Controllable Video Generation
August 21, 2024
Autores: Haitao Zhou, Chuang Wang, Rui Nie, Jinxiao Lin, Dongdong Yu, Qian Yu, Changhu Wang
cs.AI
Resumen
En los últimos años, se ha logrado un progreso sustancial en la generación de videos controlables basada en difusión. Sin embargo, lograr un control preciso en escenarios complejos, que incluyen partes de objetos detalladas, trayectorias de movimiento sofisticadas y movimiento de fondo coherente, sigue siendo un desafío. En este artículo, presentamos TrackGo, un enfoque novedoso que aprovecha máscaras y flechas de forma libre para la generación condicional de videos. Este método ofrece a los usuarios un mecanismo flexible y preciso para manipular el contenido de video. También proponemos TrackAdapter para la implementación de control, un adaptador eficiente y ligero diseñado para integrarse perfectamente en las capas temporales de autoatención de un modelo preentrenado de generación de videos. Este diseño se basa en nuestra observación de que el mapa de atención de estas capas puede activar con precisión las regiones correspondientes al movimiento en los videos. Nuestros resultados experimentales demuestran que nuestro nuevo enfoque, mejorado por TrackAdapter, logra un rendimiento de vanguardia en métricas clave como FVD, FID y puntuaciones de ObjMC. La página del proyecto TrackGo se puede encontrar en: https://zhtjtcz.github.io/TrackGo-Page/
English
Recent years have seen substantial progress in diffusion-based controllable
video generation. However, achieving precise control in complex scenarios,
including fine-grained object parts, sophisticated motion trajectories, and
coherent background movement, remains a challenge. In this paper, we introduce
TrackGo, a novel approach that leverages free-form masks and arrows for
conditional video generation. This method offers users with a flexible and
precise mechanism for manipulating video content. We also propose the
TrackAdapter for control implementation, an efficient and lightweight adapter
designed to be seamlessly integrated into the temporal self-attention layers of
a pretrained video generation model. This design leverages our observation that
the attention map of these layers can accurately activate regions corresponding
to motion in videos. Our experimental results demonstrate that our new
approach, enhanced by the TrackAdapter, achieves state-of-the-art performance
on key metrics such as FVD, FID, and ObjMC scores. The project page of TrackGo
can be found at: https://zhtjtcz.github.io/TrackGo-Page/Summary
AI-Generated Summary