ChatPaper.aiChatPaper

FreeTraj: 비디오 확산 모델에서의 튜닝 없는 궤적 제어

FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models

June 24, 2024
저자: Haonan Qiu, Zhaoxi Chen, Zhouxia Wang, Yingqing He, Menghan Xia, Ziwei Liu
cs.AI

초록

디퓨전 모델은 비디오 생성에서 뛰어난 능력을 입증하며, 생성 과정에 궤적 제어를 도입하려는 관심을 더욱 불러일으켰습니다. 기존 연구는 주로 학습 기반 방법(예: 조건부 어댑터)에 초점을 맞추고 있지만, 우리는 디퓨전 모델 자체가 추가 학습 없이도 생성된 콘텐츠를 상당히 제어할 수 있다고 주장합니다. 본 연구에서는 노이즈 구성과 어텐션 계산에 가이던스를 적용하여 궤적 제어가 가능한 비디오 생성을 달성하는 튜닝 프리 프레임워크를 소개합니다. 구체적으로, 1) 먼저 몇 가지 교훈적인 현상을 보여주고 초기 노이즈가 생성된 콘텐츠의 운동 궤적에 어떻게 영향을 미치는지 분석합니다. 2) 이어서, 노이즈 샘플링과 어텐션 메커니즘을 수정하여 궤적 제어를 가능하게 하는 튜닝 프리 접근법인 FreeTraj를 제안합니다. 3) 더 나아가, FreeTraj를 확장하여 더 길고 큰 비디오를 궤적 제어와 함께 생성할 수 있도록 합니다. 이러한 설계를 통해 사용자는 수동으로 궤적을 제공하거나 LLM 궤적 플래너에 의해 자동 생성된 궤적을 선택할 수 있는 유연성을 갖습니다. 광범위한 실험을 통해 우리의 접근법이 비디오 디퓨전 모델의 궤적 제어 가능성을 향상시키는 데 효과적임을 검증했습니다.
English
Diffusion model has demonstrated remarkable capability in video generation, which further sparks interest in introducing trajectory control into the generation process. While existing works mainly focus on training-based methods (e.g., conditional adapter), we argue that diffusion model itself allows decent control over the generated content without requiring any training. In this study, we introduce a tuning-free framework to achieve trajectory-controllable video generation, by imposing guidance on both noise construction and attention computation. Specifically, 1) we first show several instructive phenomenons and analyze how initial noises influence the motion trajectory of generated content. 2) Subsequently, we propose FreeTraj, a tuning-free approach that enables trajectory control by modifying noise sampling and attention mechanisms. 3) Furthermore, we extend FreeTraj to facilitate longer and larger video generation with controllable trajectories. Equipped with these designs, users have the flexibility to provide trajectories manually or opt for trajectories automatically generated by the LLM trajectory planner. Extensive experiments validate the efficacy of our approach in enhancing the trajectory controllability of video diffusion models.

Summary

AI-Generated Summary

PDF114November 29, 2024