ChatPaper.aiChatPaper

FreeTraj: Controllo delle Traiettorie Senza Ottimizzazione nei Modelli di Diffusione Video

FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models

June 24, 2024
Autori: Haonan Qiu, Zhaoxi Chen, Zhouxia Wang, Yingqing He, Menghan Xia, Ziwei Liu
cs.AI

Abstract

Il modello di diffusione ha dimostrato una notevole capacità nella generazione di video, il che ha ulteriormente suscitato interesse nell'introdurre il controllo della traiettoria nel processo di generazione. Mentre i lavori esistenti si concentrano principalmente su metodi basati sull'addestramento (ad esempio, adattatori condizionali), sosteniamo che il modello di diffusione stesso consente un controllo decente sul contenuto generato senza richiedere alcun addestramento. In questo studio, introduciamo un framework senza necessità di tuning per ottenere la generazione di video con traiettorie controllabili, imponendo una guida sia sulla costruzione del rumore che sul calcolo dell'attenzione. Nello specifico, 1) mostriamo prima alcuni fenomeni istruttivi e analizziamo come i rumori iniziali influenzano la traiettoria del movimento del contenuto generato. 2) Successivamente, proponiamo FreeTraj, un approccio senza tuning che consente il controllo della traiettoria modificando il campionamento del rumore e i meccanismi di attenzione. 3) Inoltre, estendiamo FreeTraj per facilitare la generazione di video più lunghi e più grandi con traiettorie controllabili. Dotati di questi progetti, gli utenti hanno la flessibilità di fornire traiettorie manualmente o di optare per traiettorie generate automaticamente dal pianificatore di traiettorie LLM. Esperimenti estensivi convalidano l'efficacia del nostro approccio nel migliorare la controllabilità della traiettoria dei modelli di diffusione video.
English
Diffusion model has demonstrated remarkable capability in video generation, which further sparks interest in introducing trajectory control into the generation process. While existing works mainly focus on training-based methods (e.g., conditional adapter), we argue that diffusion model itself allows decent control over the generated content without requiring any training. In this study, we introduce a tuning-free framework to achieve trajectory-controllable video generation, by imposing guidance on both noise construction and attention computation. Specifically, 1) we first show several instructive phenomenons and analyze how initial noises influence the motion trajectory of generated content. 2) Subsequently, we propose FreeTraj, a tuning-free approach that enables trajectory control by modifying noise sampling and attention mechanisms. 3) Furthermore, we extend FreeTraj to facilitate longer and larger video generation with controllable trajectories. Equipped with these designs, users have the flexibility to provide trajectories manually or opt for trajectories automatically generated by the LLM trajectory planner. Extensive experiments validate the efficacy of our approach in enhancing the trajectory controllability of video diffusion models.
PDF114February 8, 2026