ChatPaper.aiChatPaper

FreeTraj : Contrôle de trajectoire sans réglage dans les modèles de diffusion vidéo

FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models

June 24, 2024
Auteurs: Haonan Qiu, Zhaoxi Chen, Zhouxia Wang, Yingqing He, Menghan Xia, Ziwei Liu
cs.AI

Résumé

Le modèle de diffusion a démontré une capacité remarquable dans la génération de vidéos, ce qui suscite un intérêt croissant pour l'introduction d'un contrôle de trajectoire dans le processus de génération. Alors que les travaux existants se concentrent principalement sur des méthodes basées sur l'apprentissage (par exemple, l'adaptateur conditionnel), nous soutenons que le modèle de diffusion lui-même permet un contrôle décent du contenu généré sans nécessiter d'apprentissage. Dans cette étude, nous introduisons un cadre sans ajustement pour réaliser une génération de vidéos à trajectoire contrôlable, en imposant des guidages sur la construction du bruit et le calcul de l'attention. Plus précisément, 1) nous montrons d'abord plusieurs phénomènes instructifs et analysons comment les bruits initiaux influencent la trajectoire du mouvement du contenu généré. 2) Ensuite, nous proposons FreeTraj, une approche sans ajustement qui permet le contrôle de la trajectoire en modifiant l'échantillonnage du bruit et les mécanismes d'attention. 3) De plus, nous étendons FreeTraj pour faciliter la génération de vidéos plus longues et plus grandes avec des trajectoires contrôlables. Grâce à ces conceptions, les utilisateurs ont la flexibilité de fournir des trajectoires manuellement ou d'opter pour des trajectoires générées automatiquement par le planificateur de trajectoire LLM. Des expériences approfondies valident l'efficacité de notre approche pour améliorer la contrôlabilité des trajectoires des modèles de diffusion vidéo.
English
Diffusion model has demonstrated remarkable capability in video generation, which further sparks interest in introducing trajectory control into the generation process. While existing works mainly focus on training-based methods (e.g., conditional adapter), we argue that diffusion model itself allows decent control over the generated content without requiring any training. In this study, we introduce a tuning-free framework to achieve trajectory-controllable video generation, by imposing guidance on both noise construction and attention computation. Specifically, 1) we first show several instructive phenomenons and analyze how initial noises influence the motion trajectory of generated content. 2) Subsequently, we propose FreeTraj, a tuning-free approach that enables trajectory control by modifying noise sampling and attention mechanisms. 3) Furthermore, we extend FreeTraj to facilitate longer and larger video generation with controllable trajectories. Equipped with these designs, users have the flexibility to provide trajectories manually or opt for trajectories automatically generated by the LLM trajectory planner. Extensive experiments validate the efficacy of our approach in enhancing the trajectory controllability of video diffusion models.

Summary

AI-Generated Summary

PDF114November 29, 2024