FreeTraj : Contrôle de trajectoire sans réglage dans les modèles de diffusion vidéo
FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models
June 24, 2024
Auteurs: Haonan Qiu, Zhaoxi Chen, Zhouxia Wang, Yingqing He, Menghan Xia, Ziwei Liu
cs.AI
Résumé
Le modèle de diffusion a démontré une capacité remarquable dans la génération de vidéos, ce qui suscite un intérêt croissant pour l'introduction d'un contrôle de trajectoire dans le processus de génération. Alors que les travaux existants se concentrent principalement sur des méthodes basées sur l'apprentissage (par exemple, l'adaptateur conditionnel), nous soutenons que le modèle de diffusion lui-même permet un contrôle décent du contenu généré sans nécessiter d'apprentissage. Dans cette étude, nous introduisons un cadre sans ajustement pour réaliser une génération de vidéos à trajectoire contrôlable, en imposant des guidages sur la construction du bruit et le calcul de l'attention. Plus précisément, 1) nous montrons d'abord plusieurs phénomènes instructifs et analysons comment les bruits initiaux influencent la trajectoire du mouvement du contenu généré. 2) Ensuite, nous proposons FreeTraj, une approche sans ajustement qui permet le contrôle de la trajectoire en modifiant l'échantillonnage du bruit et les mécanismes d'attention. 3) De plus, nous étendons FreeTraj pour faciliter la génération de vidéos plus longues et plus grandes avec des trajectoires contrôlables. Grâce à ces conceptions, les utilisateurs ont la flexibilité de fournir des trajectoires manuellement ou d'opter pour des trajectoires générées automatiquement par le planificateur de trajectoire LLM. Des expériences approfondies valident l'efficacité de notre approche pour améliorer la contrôlabilité des trajectoires des modèles de diffusion vidéo.
English
Diffusion model has demonstrated remarkable capability in video generation,
which further sparks interest in introducing trajectory control into the
generation process. While existing works mainly focus on training-based methods
(e.g., conditional adapter), we argue that diffusion model itself allows decent
control over the generated content without requiring any training. In this
study, we introduce a tuning-free framework to achieve trajectory-controllable
video generation, by imposing guidance on both noise construction and attention
computation. Specifically, 1) we first show several instructive phenomenons and
analyze how initial noises influence the motion trajectory of generated
content. 2) Subsequently, we propose FreeTraj, a tuning-free approach that
enables trajectory control by modifying noise sampling and attention
mechanisms. 3) Furthermore, we extend FreeTraj to facilitate longer and larger
video generation with controllable trajectories. Equipped with these designs,
users have the flexibility to provide trajectories manually or opt for
trajectories automatically generated by the LLM trajectory planner. Extensive
experiments validate the efficacy of our approach in enhancing the trajectory
controllability of video diffusion models.Summary
AI-Generated Summary