First Frame è il punto di riferimento per la personalizzazione dei contenuti video.
First Frame Is the Place to Go for Video Content Customization
November 19, 2025
Autori: Jingxi Chen, Zongxia Li, Zhichao Liu, Guangyao Shi, Xiyang Wu, Fuxiao Liu, Cornelia Fermuller, Brandon Y. Feng, Yiannis Aloimonos
cs.AI
Abstract
Quale ruolo svolge il primo fotogramma nei modelli di generazione video? Tradizionalmente, è considerato il punto di partenza spazio-temporale di un video, semplicemente un seme per l'animazione successiva. In questo lavoro, riveliamo una prospettiva fondamentalmente diversa: i modelli video trattano implicitamente il primo fotogramma come un buffer di memoria concettuale che immagazzina entità visive per un successivo riutilizzo durante la generazione. Sfruttando questa intuizione, dimostriamo che è possibile ottenere una robusta e generalizzata personalizzazione dei contenuti video in scenari diversificati, utilizzando solo 20-50 esempi di addestramento senza modifiche architetturali o messa a punto su larga scala. Ciò rivela una potente capacità, finora trascurata, dei modelli di generazione video per la personalizzazione video basata su riferimento.
English
What role does the first frame play in video generation models? Traditionally, it's viewed as the spatial-temporal starting point of a video, merely a seed for subsequent animation. In this work, we reveal a fundamentally different perspective: video models implicitly treat the first frame as a conceptual memory buffer that stores visual entities for later reuse during generation. Leveraging this insight, we show that it's possible to achieve robust and generalized video content customization in diverse scenarios, using only 20-50 training examples without architectural changes or large-scale finetuning. This unveils a powerful, overlooked capability of video generation models for reference-based video customization.