First Frame Is de Beste Bestemming voor Videocontent op Maat
First Frame Is the Place to Go for Video Content Customization
November 19, 2025
Auteurs: Jingxi Chen, Zongxia Li, Zhichao Liu, Guangyao Shi, Xiyang Wu, Fuxiao Liu, Cornelia Fermuller, Brandon Y. Feng, Yiannis Aloimonos
cs.AI
Samenvatting
Welke rol speelt het eerste frame in videogeneratiemodellen? Traditioneel wordt het gezien als het ruimtelijk-temporele startpunt van een video, slechts een zaadje voor de daaropvolgende animatie. In dit werk onthullen we een fundamenteel ander perspectief: videomodellen behandelen het eerste frame impliciet als een conceptuele geheugenbuffer die visuele entiteiten opslaat voor later hergebruik tijdens de generatie. Gebruikmakend van dit inzicht tonen we aan dat het mogelijk is om robuuste en gegeneraliseerde videocontent-aanpassing te bereiken in diverse scenario's, met slechts 20-50 trainingsvoorbeelden zonder architectuurwijzigingen of grootschalige finetuning. Dit onthult een krachtige, over het hoofd gezien capaciteit van videogeneratiemodellen voor referentiegebaseerde videocustomisatie.
English
What role does the first frame play in video generation models? Traditionally, it's viewed as the spatial-temporal starting point of a video, merely a seed for subsequent animation. In this work, we reveal a fundamentally different perspective: video models implicitly treat the first frame as a conceptual memory buffer that stores visual entities for later reuse during generation. Leveraging this insight, we show that it's possible to achieve robust and generalized video content customization in diverse scenarios, using only 20-50 training examples without architectural changes or large-scale finetuning. This unveils a powerful, overlooked capability of video generation models for reference-based video customization.