ChatPaper.aiChatPaper

FreeTraj: Trajectoriecontrole zonder afstemming in videodiffusiemodellen

FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models

June 24, 2024
Auteurs: Haonan Qiu, Zhaoxi Chen, Zhouxia Wang, Yingqing He, Menghan Xia, Ziwei Liu
cs.AI

Samenvatting

Het diffusiemodel heeft opmerkelijke capaciteiten getoond in videogeneratie, wat verdere interesse heeft gewekt in het introduceren van trajectcontrole in het generatieproces. Hoewel bestaande werken zich voornamelijk richten op trainingsgebaseerde methoden (bijv. conditionele adapters), stellen wij dat het diffusiemodel zelf een behoorlijke controle over de gegenereerde inhoud mogelijk maakt zonder enige training te vereisen. In deze studie introduceren we een afstelmingsvrij raamwerk om trajectbeheersbare videogeneratie te bereiken, door begeleiding toe te passen op zowel ruisconstructie als aandachtberekening. Specifiek: 1) we tonen eerst enkele instructieve fenomenen en analyseren hoe initiële ruis de bewegingsbaan van de gegenereerde inhoud beïnvloedt. 2) Vervolgens stellen we FreeTraj voor, een afstelmingsvrije aanpak die trajectcontrole mogelijk maakt door ruisbemonstering en aandachtmechanismen aan te passen. 3) Bovendien breiden we FreeTraj uit om langere en grotere videogeneratie met beheersbare trajecten te vergemakkelijken. Uitgerust met deze ontwerpen hebben gebruikers de flexibiliteit om handmatig trajecten te verstrekken of te kiezen voor trajecten die automatisch worden gegenereerd door de LLM-trajectplanner. Uitgebreide experimenten valideren de effectiviteit van onze aanpak in het verbeteren van de trajectbeheersbaarheid van videodiffusiemodellen.
English
Diffusion model has demonstrated remarkable capability in video generation, which further sparks interest in introducing trajectory control into the generation process. While existing works mainly focus on training-based methods (e.g., conditional adapter), we argue that diffusion model itself allows decent control over the generated content without requiring any training. In this study, we introduce a tuning-free framework to achieve trajectory-controllable video generation, by imposing guidance on both noise construction and attention computation. Specifically, 1) we first show several instructive phenomenons and analyze how initial noises influence the motion trajectory of generated content. 2) Subsequently, we propose FreeTraj, a tuning-free approach that enables trajectory control by modifying noise sampling and attention mechanisms. 3) Furthermore, we extend FreeTraj to facilitate longer and larger video generation with controllable trajectories. Equipped with these designs, users have the flexibility to provide trajectories manually or opt for trajectories automatically generated by the LLM trajectory planner. Extensive experiments validate the efficacy of our approach in enhancing the trajectory controllability of video diffusion models.
PDF114February 8, 2026