FreeTraj: Controlo de Trajetória sem Ajustes em Modelos de Difusão de Vídeo
FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models
June 24, 2024
Autores: Haonan Qiu, Zhaoxi Chen, Zhouxia Wang, Yingqing He, Menghan Xia, Ziwei Liu
cs.AI
Resumo
O modelo de difusão demonstrou uma capacidade notável na geração de vídeos, o que despertou interesse em introduzir controle de trajetória no processo de geração. Enquanto os trabalhos existentes se concentram principalmente em métodos baseados em treinamento (por exemplo, adaptador condicional), argumentamos que o próprio modelo de difusão permite um controle decente sobre o conteúdo gerado sem exigir nenhum treinamento. Neste estudo, introduzimos um framework sem ajustes para alcançar geração de vídeo controlável por trajetória, impondo orientação tanto na construção de ruído quanto no cálculo de atenção. Especificamente, 1) mostramos inicialmente vários fenômenos instrutivos e analisamos como os ruídos iniciais influenciam a trajetória de movimento do conteúdo gerado. 2) Em seguida, propomos o FreeTraj, uma abordagem sem ajustes que permite controle de trajetória modificando a amostragem de ruído e os mecanismos de atenção. 3) Além disso, estendemos o FreeTraj para facilitar a geração de vídeos mais longos e maiores com trajetórias controláveis. Equipados com esses projetos, os usuários têm a flexibilidade de fornecer trajetórias manualmente ou optar por trajetórias geradas automaticamente pelo planejador de trajetória LLM. Experimentos extensivos validam a eficácia de nossa abordagem em aprimorar a controlabilidade de trajetória de modelos de difusão de vídeo.
English
Diffusion model has demonstrated remarkable capability in video generation,
which further sparks interest in introducing trajectory control into the
generation process. While existing works mainly focus on training-based methods
(e.g., conditional adapter), we argue that diffusion model itself allows decent
control over the generated content without requiring any training. In this
study, we introduce a tuning-free framework to achieve trajectory-controllable
video generation, by imposing guidance on both noise construction and attention
computation. Specifically, 1) we first show several instructive phenomenons and
analyze how initial noises influence the motion trajectory of generated
content. 2) Subsequently, we propose FreeTraj, a tuning-free approach that
enables trajectory control by modifying noise sampling and attention
mechanisms. 3) Furthermore, we extend FreeTraj to facilitate longer and larger
video generation with controllable trajectories. Equipped with these designs,
users have the flexibility to provide trajectories manually or opt for
trajectories automatically generated by the LLM trajectory planner. Extensive
experiments validate the efficacy of our approach in enhancing the trajectory
controllability of video diffusion models.