Phantom: Subjektkonsistente Videogenerierung durch cross-modale Ausrichtung

papers.abstract

Die kontinuierliche Entwicklung von Grundmodellen für die Videogenerierung entwickelt sich in verschiedene Anwendungen, wobei die subjektkonsistente Videogenerierung noch im explorativen Stadium ist. Wir bezeichnen dies als Subject-to-Video, das Subjektelemente aus Referenzbildern extrahiert und durch textuelle Anweisungen subjektkonsistente Videos erzeugt. Wir glauben, dass das Wesen von Subject-to-Video in der Balance der dual-modalen Eingaben von Text und Bild liegt, wodurch sowohl Text- als auch visuelle Inhalte tief und gleichzeitig ausgerichtet werden. Zu diesem Zweck schlagen wir Phantom vor, ein einheitliches Videogenerierungsframework für Einzel- und Mehrfachsubjektreferenzen. Aufbauend auf bestehenden Text-zu-Video- und Bild-zu-Video-Architekturen gestalten wir das gemeinsame Text-Bild-Injektionsmodell neu und treiben es an, durch Text-Bild-Video-Tripel-Daten eine cross-modale Ausrichtung zu erlernen. Insbesondere betonen wir die Subjektkonsistenz bei der menschlichen Generierung, die bestehende ID-erhaltende Videogenerierung abdeckt und gleichzeitig verbesserte Vorteile bietet. Die Projekt-Homepage ist hier zu finden: https://phantom-video.github.io/Phantom/.

English

The continuous development of foundational models for video generation is evolving into various applications, with subject-consistent video generation still in the exploratory stage. We refer to this as Subject-to-Video, which extracts subject elements from reference images and generates subject-consistent video through textual instructions. We believe that the essence of subject-to-video lies in balancing the dual-modal prompts of text and image, thereby deeply and simultaneously aligning both text and visual content. To this end, we propose Phantom, a unified video generation framework for both single and multi-subject references. Building on existing text-to-video and image-to-video architectures, we redesign the joint text-image injection model and drive it to learn cross-modal alignment via text-image-video triplet data. In particular, we emphasize subject consistency in human generation, covering existing ID-preserving video generation while offering enhanced advantages. The project homepage is here https://phantom-video.github.io/Phantom/.

Phantom: Subjektkonsistente Videogenerierung durch cross-modale Ausrichtung

Phantom: Subject-consistent video generation via cross-modal alignment

papers.abstract

Support