FreeTraj: Control de trayectoria sin ajustes en modelos de difusión de video

Resumen

El modelo de difusión ha demostrado una capacidad notable en la generación de videos, lo que ha despertado aún más interés en introducir control de trayectorias en el proceso de generación. Mientras que los trabajos existentes se centran principalmente en métodos basados en entrenamiento (por ejemplo, adaptadores condicionales), argumentamos que el modelo de difusión en sí permite un control decente sobre el contenido generado sin requerir ningún entrenamiento. En este estudio, introducimos un marco sin ajuste para lograr la generación de videos con trayectorias controlables, aplicando guías tanto en la construcción del ruido como en el cálculo de la atención. Específicamente, 1) primero mostramos varios fenómenos instructivos y analizamos cómo los ruidos iniciales influyen en la trayectoria del movimiento del contenido generado. 2) Posteriormente, proponemos FreeTraj, un enfoque sin ajuste que permite el control de trayectorias mediante la modificación del muestreo de ruido y los mecanismos de atención. 3) Además, extendemos FreeTraj para facilitar la generación de videos más largos y de mayor tamaño con trayectorias controlables. Equipados con estos diseños, los usuarios tienen la flexibilidad de proporcionar trayectorias manualmente o optar por trayectorias generadas automáticamente por el planificador de trayectorias basado en LLM. Experimentos extensos validan la eficacia de nuestro enfoque para mejorar la controlabilidad de las trayectorias en los modelos de difusión de video.

English

Diffusion model has demonstrated remarkable capability in video generation, which further sparks interest in introducing trajectory control into the generation process. While existing works mainly focus on training-based methods (e.g., conditional adapter), we argue that diffusion model itself allows decent control over the generated content without requiring any training. In this study, we introduce a tuning-free framework to achieve trajectory-controllable video generation, by imposing guidance on both noise construction and attention computation. Specifically, 1) we first show several instructive phenomenons and analyze how initial noises influence the motion trajectory of generated content. 2) Subsequently, we propose FreeTraj, a tuning-free approach that enables trajectory control by modifying noise sampling and attention mechanisms. 3) Furthermore, we extend FreeTraj to facilitate longer and larger video generation with controllable trajectories. Equipped with these designs, users have the flexibility to provide trajectories manually or opt for trajectories automatically generated by the LLM trajectory planner. Extensive experiments validate the efficacy of our approach in enhancing the trajectory controllability of video diffusion models.

FreeTraj: Control de trayectoria sin ajustes en modelos de difusión de video

FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models

Resumen

Support