ChatPaper.aiChatPaper

Phantom: Subjektkonsistente Videogenerierung durch cross-modale Ausrichtung

Phantom: Subject-consistent video generation via cross-modal alignment

February 16, 2025
Autoren: Lijie Liu, Tianxiang Ma, Bingchuan Li, Zhuowei Chen, Jiawei Liu, Qian He, Xinglong Wu
cs.AI

Zusammenfassung

Die kontinuierliche Entwicklung von Grundmodellen für die Videogenerierung entwickelt sich in verschiedene Anwendungen, wobei die subjektkonsistente Videogenerierung noch im explorativen Stadium ist. Wir bezeichnen dies als Subject-to-Video, das Subjektelemente aus Referenzbildern extrahiert und durch textuelle Anweisungen subjektkonsistente Videos erzeugt. Wir glauben, dass das Wesen von Subject-to-Video in der Balance der dual-modalen Eingaben von Text und Bild liegt, wodurch sowohl Text- als auch visuelle Inhalte tief und gleichzeitig ausgerichtet werden. Zu diesem Zweck schlagen wir Phantom vor, ein einheitliches Videogenerierungsframework für Einzel- und Mehrfachsubjektreferenzen. Aufbauend auf bestehenden Text-zu-Video- und Bild-zu-Video-Architekturen gestalten wir das gemeinsame Text-Bild-Injektionsmodell neu und treiben es an, durch Text-Bild-Video-Tripel-Daten eine cross-modale Ausrichtung zu erlernen. Insbesondere betonen wir die Subjektkonsistenz bei der menschlichen Generierung, die bestehende ID-erhaltende Videogenerierung abdeckt und gleichzeitig verbesserte Vorteile bietet. Die Projekt-Homepage ist hier zu finden: https://phantom-video.github.io/Phantom/.
English
The continuous development of foundational models for video generation is evolving into various applications, with subject-consistent video generation still in the exploratory stage. We refer to this as Subject-to-Video, which extracts subject elements from reference images and generates subject-consistent video through textual instructions. We believe that the essence of subject-to-video lies in balancing the dual-modal prompts of text and image, thereby deeply and simultaneously aligning both text and visual content. To this end, we propose Phantom, a unified video generation framework for both single and multi-subject references. Building on existing text-to-video and image-to-video architectures, we redesign the joint text-image injection model and drive it to learn cross-modal alignment via text-image-video triplet data. In particular, we emphasize subject consistency in human generation, covering existing ID-preserving video generation while offering enhanced advantages. The project homepage is here https://phantom-video.github.io/Phantom/.

Summary

AI-Generated Summary

PDF603February 19, 2025