Der ideale Ausgangspunkt für die individuelle Anpassung von Videoinhalten
First Frame Is the Place to Go for Video Content Customization
November 19, 2025
papers.authors: Jingxi Chen, Zongxia Li, Zhichao Liu, Guangyao Shi, Xiyang Wu, Fuxiao Liu, Cornelia Fermuller, Brandon Y. Feng, Yiannis Aloimonos
cs.AI
papers.abstract
Welche Rolle spielt das erste Bild in Videogenerierungsmodellen? Traditionell wird es als räumlich-zeitlicher Ausgangspunkt eines Videos betrachtet, lediglich als Keimzelle für die nachfolgende Animation. In dieser Arbeit zeigen wir eine grundlegend andere Perspektive auf: Videomodelle behandeln das erste Bild implizit als konzeptuellen Speicherpuffer, der visuelle Entitäten für die spätere Wiederverwendung während der Generierung speichert. Indem wir diese Erkenntnis nutzen, demonstrieren wir, dass eine robuste und generalisierte Anpassung von Videoinhalten in verschiedenen Szenarien möglich ist – mit nur 20-50 Trainingsbeispielen, ohne Architekturänderungen oder umfangreiche Feinabstimmung. Dies enthüllt eine mächtige, übersehene Fähigkeit von Videogenerierungsmodellen zur referenzbasierten Videopersonalisierung.
English
What role does the first frame play in video generation models? Traditionally, it's viewed as the spatial-temporal starting point of a video, merely a seed for subsequent animation. In this work, we reveal a fundamentally different perspective: video models implicitly treat the first frame as a conceptual memory buffer that stores visual entities for later reuse during generation. Leveraging this insight, we show that it's possible to achieve robust and generalized video content customization in diverse scenarios, using only 20-50 training examples without architectural changes or large-scale finetuning. This unveils a powerful, overlooked capability of video generation models for reference-based video customization.