FreeTraj: Control de trayectoria sin ajustes en modelos de difusión de video
FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models
June 24, 2024
Autores: Haonan Qiu, Zhaoxi Chen, Zhouxia Wang, Yingqing He, Menghan Xia, Ziwei Liu
cs.AI
Resumen
El modelo de difusión ha demostrado una capacidad notable en la generación de videos, lo que ha despertado aún más interés en introducir control de trayectorias en el proceso de generación. Mientras que los trabajos existentes se centran principalmente en métodos basados en entrenamiento (por ejemplo, adaptadores condicionales), argumentamos que el modelo de difusión en sí permite un control decente sobre el contenido generado sin requerir ningún entrenamiento. En este estudio, introducimos un marco sin ajuste para lograr la generación de videos con trayectorias controlables, aplicando guías tanto en la construcción del ruido como en el cálculo de la atención. Específicamente, 1) primero mostramos varios fenómenos instructivos y analizamos cómo los ruidos iniciales influyen en la trayectoria del movimiento del contenido generado. 2) Posteriormente, proponemos FreeTraj, un enfoque sin ajuste que permite el control de trayectorias mediante la modificación del muestreo de ruido y los mecanismos de atención. 3) Además, extendemos FreeTraj para facilitar la generación de videos más largos y de mayor tamaño con trayectorias controlables. Equipados con estos diseños, los usuarios tienen la flexibilidad de proporcionar trayectorias manualmente o optar por trayectorias generadas automáticamente por el planificador de trayectorias basado en LLM. Experimentos extensos validan la eficacia de nuestro enfoque para mejorar la controlabilidad de las trayectorias en los modelos de difusión de video.
English
Diffusion model has demonstrated remarkable capability in video generation,
which further sparks interest in introducing trajectory control into the
generation process. While existing works mainly focus on training-based methods
(e.g., conditional adapter), we argue that diffusion model itself allows decent
control over the generated content without requiring any training. In this
study, we introduce a tuning-free framework to achieve trajectory-controllable
video generation, by imposing guidance on both noise construction and attention
computation. Specifically, 1) we first show several instructive phenomenons and
analyze how initial noises influence the motion trajectory of generated
content. 2) Subsequently, we propose FreeTraj, a tuning-free approach that
enables trajectory control by modifying noise sampling and attention
mechanisms. 3) Furthermore, we extend FreeTraj to facilitate longer and larger
video generation with controllable trajectories. Equipped with these designs,
users have the flexibility to provide trajectories manually or opt for
trajectories automatically generated by the LLM trajectory planner. Extensive
experiments validate the efficacy of our approach in enhancing the trajectory
controllability of video diffusion models.Summary
AI-Generated Summary