FlashMotion: Wenig-Schritt-steuerbare Videogenerierung mit Trajektorienführung

Zusammenfassung

Jüngste Fortschritte bei der trajektoriensteuerbaren Videogenerierung haben bemerkenswerte Erfolge erzielt. Bisherige Methoden nutzen hauptsächlich Adapter-basierte Architekturen für eine präzise Bewegungskontrolle entlang vordefinierter Trajektorien. Allerdings stützen sich all diese Methoden auf einen mehrstufigen Denoising-Prozess, was zu erheblicher Zeitredundanz und hohem Rechenaufwand führt. Während bestehende Video-Distillationsverfahren mehrstufige Generatoren erfolgreich in wenige Schritte überführen können, führt eine direkte Anwendung dieser Ansätze auf die trajektoriensteuerbare Videogenerierung zu einer spürbaren Verschlechterung sowohl der Videoqualität als auch der Trajektoriengenauigkeit. Um diese Lücke zu schließen, stellen wir FlashMotion vor, ein neuartiges Trainingsframework, das für die wenige Schritte umfassende, trajektoriensteuerbare Videogenerierung konzipiert ist. Wir trainieren zunächst einen Trajektorien-Adapter auf einem mehrstufigen Videogenerator, um eine präzise Trajektorienkontrolle zu erreichen. Anschließend wird der Generator durch Distillation in eine Version mit wenigen Schritten überführt, um die Videogenerierung zu beschleunigen. Schließlich feintunen wir den Adapter mit einer Hybridstrategie, die Diffusions- und Adversarial-Ziele kombiniert, um ihn an den wenige Schritte umfassenden Generator anzupassen und hochwertige, trajektoriengetreue Videos zu erzeugen. Für die Evaluierung führen wir FlashBench ein, einen Benchmark für die trajektoriensteuerbare Videogenerierung langer Sequenzen, der sowohl die Videoqualität als auch die Trajektoriengenauigkeit bei variierender Anzahl von Vordergrundobjekten misst. Experimente mit zwei Adapter-Architekturen zeigen, dass FlashMotion sowohl bestehende Video-Distillationsmethoden als auch frühere mehrstufige Modelle in Bezug auf visuelle Qualität und Trajektorienkonsistenz übertrifft.

English

Recent advances in trajectory-controllable video generation have achieved remarkable progress. Previous methods mainly use adapter-based architectures for precise motion control along predefined trajectories. However, all these methods rely on a multi-step denoising process, leading to substantial time redundancy and computational overhead. While existing video distillation methods successfully distill multi-step generators into few-step, directly applying these approaches to trajectory-controllable video generation results in noticeable degradation in both video quality and trajectory accuracy. To bridge this gap, we introduce FlashMotion, a novel training framework designed for few-step trajectory-controllable video generation. We first train a trajectory adapter on a multi-step video generator for precise trajectory control. Then, we distill the generator into a few-step version to accelerate video generation. Finally, we finetune the adapter using a hybrid strategy that combines diffusion and adversarial objectives, aligning it with the few-step generator to produce high-quality, trajectory-accurate videos. For evaluation, we introduce FlashBench, a benchmark for long-sequence trajectory-controllable video generation that measures both video quality and trajectory accuracy across varying numbers of foreground objects. Experiments on two adapter architectures show that FlashMotion surpasses existing video distillation methods and previous multi-step models in both visual quality and trajectory consistency.

FlashMotion: Wenig-Schritt-steuerbare Videogenerierung mit Trajektorienführung

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

Zusammenfassung

Support