Atención de Trayectoria para el Control de Movimiento de Video Detallado
Trajectory Attention for Fine-grained Video Motion Control
November 28, 2024
Autores: Zeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan
cs.AI
Resumen
Los avances recientes en generación de video han sido impulsados en gran medida por modelos de difusión de video, con el control de movimiento de cámara emergiendo como un desafío crucial en la creación de contenido visual personalizado. Este artículo introduce la atención a trayectorias, un enfoque novedoso que realiza atención a lo largo de trayectorias de píxeles disponibles para un control detallado del movimiento de la cámara. A diferencia de los métodos existentes que a menudo producen salidas imprecisas o descuidan las correlaciones temporales, nuestro enfoque posee un sesgo inductivo más fuerte que inyecta sin problemas información de trayectoria en el proceso de generación de video. Importante, nuestro enfoque modela la atención a trayectorias como una rama auxiliar junto con la atención temporal tradicional. Este diseño permite que la atención temporal original y la atención a trayectorias trabajen en sinergia, asegurando tanto un control preciso del movimiento como una nueva capacidad de generación de contenido, lo cual es crítico cuando la trayectoria está solo parcialmente disponible. Experimentos sobre control de movimiento de cámara para imágenes y videos demuestran mejoras significativas en precisión y consistencia a largo plazo manteniendo una generación de alta calidad. Además, mostramos que nuestro enfoque puede extenderse a otras tareas de control de movimiento de video, como la edición de video guiada por el primer fotograma, donde destaca en mantener la consistencia del contenido en amplios rangos espaciales y temporales.
English
Recent advancements in video generation have been greatly driven by video
diffusion models, with camera motion control emerging as a crucial challenge in
creating view-customized visual content. This paper introduces trajectory
attention, a novel approach that performs attention along available pixel
trajectories for fine-grained camera motion control. Unlike existing methods
that often yield imprecise outputs or neglect temporal correlations, our
approach possesses a stronger inductive bias that seamlessly injects trajectory
information into the video generation process. Importantly, our approach models
trajectory attention as an auxiliary branch alongside traditional temporal
attention. This design enables the original temporal attention and the
trajectory attention to work in synergy, ensuring both precise motion control
and new content generation capability, which is critical when the trajectory is
only partially available. Experiments on camera motion control for images and
videos demonstrate significant improvements in precision and long-range
consistency while maintaining high-quality generation. Furthermore, we show
that our approach can be extended to other video motion control tasks, such as
first-frame-guided video editing, where it excels in maintaining content
consistency over large spatial and temporal ranges.Summary
AI-Generated Summary