ChatPaper.aiChatPaper

First Frame es el Destino Ideal para la Personalización de Contenido de Video

First Frame Is the Place to Go for Video Content Customization

November 19, 2025
Autores: Jingxi Chen, Zongxia Li, Zhichao Liu, Guangyao Shi, Xiyang Wu, Fuxiao Liu, Cornelia Fermuller, Brandon Y. Feng, Yiannis Aloimonos
cs.AI

Resumen

¿Qué papel desempeña el primer fotograma en los modelos de generación de vídeo? Tradicionalmente, se ha considerado como el punto de partida espacio-temporal de un vídeo, simplemente una semilla para la animación posterior. En este trabajo, revelamos una perspectiva fundamentalmente diferente: los modelos de vídeo tratan implícitamente el primer fotograma como un búfer de memoria conceptual que almacena entidades visuales para su reutilización posterior durante la generación. Aprovechando esta idea, demostramos que es posible lograr una personalización robusta y generalizada del contenido de vídeo en diversos escenarios, utilizando solo 20-50 ejemplos de entrenamiento sin cambios arquitectónicos o ajuste a gran escala. Esto desvela una potente capacidad pasada por alto de los modelos de generación de vídeo para la personalización de vídeo basada en referencia.
English
What role does the first frame play in video generation models? Traditionally, it's viewed as the spatial-temporal starting point of a video, merely a seed for subsequent animation. In this work, we reveal a fundamentally different perspective: video models implicitly treat the first frame as a conceptual memory buffer that stores visual entities for later reuse during generation. Leveraging this insight, we show that it's possible to achieve robust and generalized video content customization in diverse scenarios, using only 20-50 training examples without architectural changes or large-scale finetuning. This unveils a powerful, overlooked capability of video generation models for reference-based video customization.
PDF523December 1, 2025