FreeTraj: Tuning-freie Trajektoriensteuerung in Video-Diffusionsmodellen

papers.abstract

Das Diffusionsmodell hat eine bemerkenswerte Fähigkeit in der Videogenerierung gezeigt, was weiteres Interesse an der Einführung von Trajektoriensteuerung in den Generierungsprozess weckt. Während bestehende Arbeiten hauptsächlich auf trainingsbasierten Methoden (z. B. bedingter Adapter) beruhen, argumentieren wir, dass das Diffusionsmodell selbst eine anständige Kontrolle über den generierten Inhalt ermöglicht, ohne dass ein Training erforderlich ist. In dieser Studie stellen wir ein abstimmbares Rahmenwerk vor, um eine trajektoriensteuerbare Videogenerierung zu erreichen, indem wir sowohl auf die Rauscherzeugung als auch auf die Aufmerksamkeitsberechnung Einfluss nehmen. Speziell zeigen wir zunächst mehrere instruktive Phänomene und analysieren, wie anfängliche Geräusche die Bewegungsbahn des generierten Inhalts beeinflussen. Anschließend schlagen wir FreeTraj vor, einen abstimmbaren Ansatz, der die Trajektoriensteuerung durch Modifikation der Rauschenerzeugung und Aufmerksamkeitsmechanismen ermöglicht. Darüber hinaus erweitern wir FreeTraj, um eine längere und größere Videogenerierung mit steuerbaren Trajektorien zu erleichtern. Mit diesen Entwürfen haben Benutzer die Flexibilität, Trajektorien manuell bereitzustellen oder sich für automatisch generierte Trajektorien des LLM-Trajektplans zu entscheiden. Umfangreiche Experimente bestätigen die Wirksamkeit unseres Ansatzes bei der Verbesserung der Trajektoriensteuerbarkeit von Videodiffusionsmodellen.

English

Diffusion model has demonstrated remarkable capability in video generation, which further sparks interest in introducing trajectory control into the generation process. While existing works mainly focus on training-based methods (e.g., conditional adapter), we argue that diffusion model itself allows decent control over the generated content without requiring any training. In this study, we introduce a tuning-free framework to achieve trajectory-controllable video generation, by imposing guidance on both noise construction and attention computation. Specifically, 1) we first show several instructive phenomenons and analyze how initial noises influence the motion trajectory of generated content. 2) Subsequently, we propose FreeTraj, a tuning-free approach that enables trajectory control by modifying noise sampling and attention mechanisms. 3) Furthermore, we extend FreeTraj to facilitate longer and larger video generation with controllable trajectories. Equipped with these designs, users have the flexibility to provide trajectories manually or opt for trajectories automatically generated by the LLM trajectory planner. Extensive experiments validate the efficacy of our approach in enhancing the trajectory controllability of video diffusion models.

FreeTraj: Tuning-freie Trajektoriensteuerung in Video-Diffusionsmodellen

FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models

papers.abstract

Support