ChatPaper.aiChatPaper

Première Image est la destination privilégiée pour la personnalisation de contenu vidéo.

First Frame Is the Place to Go for Video Content Customization

November 19, 2025
papers.authors: Jingxi Chen, Zongxia Li, Zhichao Liu, Guangyao Shi, Xiyang Wu, Fuxiao Liu, Cornelia Fermuller, Brandon Y. Feng, Yiannis Aloimonos
cs.AI

papers.abstract

Quel rôle joue la première image dans les modèles de génération vidéo ? Traditionnellement, elle est considérée comme le point de départ spatio-temporel d'une vidéo, simplement une amorce pour l'animation ultérieure. Dans ce travail, nous révélons une perspective fondamentalement différente : les modèles vidéo traitent implicitement la première image comme une mémoire tampon conceptuelle qui stocke des entités visuelles pour une réutilisation ultérieure lors de la génération. En tirant parti de cette intuition, nous montrons qu'il est possible d'atteindre une personnalisation robuste et généralisée du contenu vidéo dans divers scénarios, en utilisant seulement 20 à 50 exemples d'entraînement sans modifications architecturales ni fine-tuning à grande échelle. Cela révèle une capacité puissante mais négligée des modèles de génération vidéo pour la personnalisation vidéo par référence.
English
What role does the first frame play in video generation models? Traditionally, it's viewed as the spatial-temporal starting point of a video, merely a seed for subsequent animation. In this work, we reveal a fundamentally different perspective: video models implicitly treat the first frame as a conceptual memory buffer that stores visual entities for later reuse during generation. Leveraging this insight, we show that it's possible to achieve robust and generalized video content customization in diverse scenarios, using only 20-50 training examples without architectural changes or large-scale finetuning. This unveils a powerful, overlooked capability of video generation models for reference-based video customization.
PDF523December 1, 2025