ChatPaper.aiChatPaper

FancyVideo: Auf dem Weg zur dynamischen und konsistenten Videogenerierung durch textuelle Anleitung über mehrere Frames hinweg

FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance

August 15, 2024
Autoren: Jiasong Feng, Ao Ma, Jing Wang, Bo Cheng, Xiaodan Liang, Dawei Leng, Yuhui Yin
cs.AI

Zusammenfassung

Die Synthese von bewegungsreichen und zeitlich konsistenten Videos bleibt eine Herausforderung in der künstlichen Intelligenz, insbesondere bei der Verarbeitung langer Dauern. Bestehende Text-zu-Video (T2V) Modelle verwenden üblicherweise räumliche Kreuz-Aufmerksamkeit zur Textsteuerung, um unterschiedliche Bildgenerierungen ohne bildspezifische textuelle Anleitung zu lenken. Dadurch ist die Fähigkeit des Modells, die in den Anweisungen vermittelte zeitliche Logik zu erfassen und Videos mit kohärenter Bewegung zu generieren, eingeschränkt. Um diese Einschränkung zu bewältigen, stellen wir FancyVideo vor, einen innovativen Video-Generator, der den bestehenden Textsteuerungsmechanismus mit dem sorgfältig gestalteten Modul für Kreuzbild-Textuelle Anleitung (CTGM) verbessert. Speziell integriert CTGM den Temporalen Informationsinjektor (TII), den Temporalen Affinitätsverfeinerer (TAR) und den Temporalen Merkmalsverstärker (TFB) zu Beginn, in der Mitte und am Ende der Kreuz-Aufmerksamkeit, um bildspezifische textuelle Anleitung zu erreichen. Zunächst injiziert TII bildspezifische Informationen aus latenten Merkmalen in Textbedingungen, um so kreuzbildliche textuelle Bedingungen zu erhalten. Anschließend verfeinert TAR die Korrelationsmatrix zwischen kreuzbildlichen textuellen Bedingungen und latenten Merkmalen entlang der Zeitdimension. Zuletzt verstärkt TFB die zeitliche Konsistenz der latenten Merkmale. Umfangreiche Experimente, die sowohl quantitative als auch qualitative Bewertungen umfassen, zeigen die Wirksamkeit von FancyVideo. Unser Ansatz erzielt erstklassige T2V-Generierungsergebnisse im EvalCrafter-Benchmark und erleichtert die Synthese dynamischer und konsistenter Videos. Die Videoergebnisse sind unter https://fancyvideo.github.io/ verfügbar, und wir werden unseren Code und unsere Modellgewichte öffentlich zugänglich machen.
English
Synthesizing motion-rich and temporally consistent videos remains a challenge in artificial intelligence, especially when dealing with extended durations. Existing text-to-video (T2V) models commonly employ spatial cross-attention for text control, equivalently guiding different frame generations without frame-specific textual guidance. Thus, the model's capacity to comprehend the temporal logic conveyed in prompts and generate videos with coherent motion is restricted. To tackle this limitation, we introduce FancyVideo, an innovative video generator that improves the existing text-control mechanism with the well-designed Cross-frame Textual Guidance Module (CTGM). Specifically, CTGM incorporates the Temporal Information Injector (TII), Temporal Affinity Refiner (TAR), and Temporal Feature Booster (TFB) at the beginning, middle, and end of cross-attention, respectively, to achieve frame-specific textual guidance. Firstly, TII injects frame-specific information from latent features into text conditions, thereby obtaining cross-frame textual conditions. Then, TAR refines the correlation matrix between cross-frame textual conditions and latent features along the time dimension. Lastly, TFB boosts the temporal consistency of latent features. Extensive experiments comprising both quantitative and qualitative evaluations demonstrate the effectiveness of FancyVideo. Our approach achieves state-of-the-art T2V generation results on the EvalCrafter benchmark and facilitates the synthesis of dynamic and consistent videos. The video show results can be available at https://fancyvideo.github.io/, and we will make our code and model weights publicly available.

Summary

AI-Generated Summary

PDF173November 26, 2024