FreeTraj: Tuning-freie Trajektoriensteuerung in Video-Diffusionsmodellen
FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models
June 24, 2024
Autoren: Haonan Qiu, Zhaoxi Chen, Zhouxia Wang, Yingqing He, Menghan Xia, Ziwei Liu
cs.AI
Zusammenfassung
Das Diffusionsmodell hat eine bemerkenswerte Fähigkeit in der Videogenerierung gezeigt, was weiteres Interesse an der Einführung von Trajektoriensteuerung in den Generierungsprozess weckt. Während bestehende Arbeiten hauptsächlich auf trainingsbasierten Methoden (z. B. bedingter Adapter) beruhen, argumentieren wir, dass das Diffusionsmodell selbst eine anständige Kontrolle über den generierten Inhalt ermöglicht, ohne dass ein Training erforderlich ist. In dieser Studie stellen wir ein abstimmbares Rahmenwerk vor, um eine trajektoriensteuerbare Videogenerierung zu erreichen, indem wir sowohl auf die Rauscherzeugung als auch auf die Aufmerksamkeitsberechnung Einfluss nehmen. Speziell zeigen wir zunächst mehrere instruktive Phänomene und analysieren, wie anfängliche Geräusche die Bewegungsbahn des generierten Inhalts beeinflussen. Anschließend schlagen wir FreeTraj vor, einen abstimmbaren Ansatz, der die Trajektoriensteuerung durch Modifikation der Rauschenerzeugung und Aufmerksamkeitsmechanismen ermöglicht. Darüber hinaus erweitern wir FreeTraj, um eine längere und größere Videogenerierung mit steuerbaren Trajektorien zu erleichtern. Mit diesen Entwürfen haben Benutzer die Flexibilität, Trajektorien manuell bereitzustellen oder sich für automatisch generierte Trajektorien des LLM-Trajektplans zu entscheiden. Umfangreiche Experimente bestätigen die Wirksamkeit unseres Ansatzes bei der Verbesserung der Trajektoriensteuerbarkeit von Videodiffusionsmodellen.
English
Diffusion model has demonstrated remarkable capability in video generation,
which further sparks interest in introducing trajectory control into the
generation process. While existing works mainly focus on training-based methods
(e.g., conditional adapter), we argue that diffusion model itself allows decent
control over the generated content without requiring any training. In this
study, we introduce a tuning-free framework to achieve trajectory-controllable
video generation, by imposing guidance on both noise construction and attention
computation. Specifically, 1) we first show several instructive phenomenons and
analyze how initial noises influence the motion trajectory of generated
content. 2) Subsequently, we propose FreeTraj, a tuning-free approach that
enables trajectory control by modifying noise sampling and attention
mechanisms. 3) Furthermore, we extend FreeTraj to facilitate longer and larger
video generation with controllable trajectories. Equipped with these designs,
users have the flexibility to provide trajectories manually or opt for
trajectories automatically generated by the LLM trajectory planner. Extensive
experiments validate the efficacy of our approach in enhancing the trajectory
controllability of video diffusion models.Summary
AI-Generated Summary