ChatPaper.aiChatPaper

Trajektorien-Aufmerksamkeit für feinkörnige Steuerung der Videobewegung

Trajectory Attention for Fine-grained Video Motion Control

November 28, 2024
Autoren: Zeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan
cs.AI

Zusammenfassung

Die jüngsten Fortschritte in der Videogenerierung wurden maßgeblich von Videodiffusionsmodellen vorangetrieben, wobei die Steuerung der Kamerabewegung als eine entscheidende Herausforderung bei der Erstellung von anpassbaren visuellen Inhalten gilt. Dieser Artikel stellt die Trajektorien-Aufmerksamkeit vor, einen neuartigen Ansatz, der Aufmerksamkeit entlang verfügbarer Pixeltrajektorien für eine fein abgestimmte Steuerung der Kamerabewegung ausführt. Im Gegensatz zu bestehenden Methoden, die häufig ungenaue Ausgaben liefern oder zeitliche Korrelationen vernachlässigen, besitzt unser Ansatz eine stärkere induktive Verzerrung, die Trajektorieninformationen nahtlos in den Videogenerierungsprozess einbringt. Wichtig ist, dass unser Ansatz die Trajektorien-Aufmerksamkeit als einen Hilfszweig neben der traditionellen zeitlichen Aufmerksamkeit modelliert. Dieses Design ermöglicht es der ursprünglichen zeitlichen Aufmerksamkeit und der Trajektorien-Aufmerksamkeit, synergistisch zu arbeiten, um sowohl präzise Bewegungssteuerung als auch neue Generierungsfähigkeiten sicherzustellen, was entscheidend ist, wenn die Trajektorie nur teilweise verfügbar ist. Experimente zur Kamerabewegungssteuerung für Bilder und Videos zeigen signifikante Verbesserungen in Präzision und Langstreckenkonsistenz bei gleichzeitiger Aufrechterhaltung einer hochwertigen Generierung. Darüber hinaus zeigen wir, dass unser Ansatz auf andere Videobewegungssteuerungsaufgaben ausgeweitet werden kann, wie z.B. die Videobearbeitung mit dem ersten Bild als Leitfaden, wo er sich durch die Aufrechterhaltung der Inhaltskonsistenz über große räumliche und zeitliche Bereiche auszeichnet.
English
Recent advancements in video generation have been greatly driven by video diffusion models, with camera motion control emerging as a crucial challenge in creating view-customized visual content. This paper introduces trajectory attention, a novel approach that performs attention along available pixel trajectories for fine-grained camera motion control. Unlike existing methods that often yield imprecise outputs or neglect temporal correlations, our approach possesses a stronger inductive bias that seamlessly injects trajectory information into the video generation process. Importantly, our approach models trajectory attention as an auxiliary branch alongside traditional temporal attention. This design enables the original temporal attention and the trajectory attention to work in synergy, ensuring both precise motion control and new content generation capability, which is critical when the trajectory is only partially available. Experiments on camera motion control for images and videos demonstrate significant improvements in precision and long-range consistency while maintaining high-quality generation. Furthermore, we show that our approach can be extended to other video motion control tasks, such as first-frame-guided video editing, where it excels in maintaining content consistency over large spatial and temporal ranges.

Summary

AI-Generated Summary

PDF122December 2, 2024