ChatPaper.aiChatPaper

Первые кадры — ключ к персонализации видеоконтента

First Frame Is the Place to Go for Video Content Customization

November 19, 2025
Авторы: Jingxi Chen, Zongxia Li, Zhichao Liu, Guangyao Shi, Xiyang Wu, Fuxiao Liu, Cornelia Fermuller, Brandon Y. Feng, Yiannis Aloimonos
cs.AI

Аннотация

Какую роль играет первый кадр в моделях генерации видео? Традиционно он рассматривается как пространственно-временная отправная точка видео, просто "семя" для последующей анимации. В данной работе мы раскрываем принципиально иной взгляд: видео-модели неявно трактуют первый кадр как концептуальный буфер памяти, который сохраняет визуальные сущности для их последующего повторного использования в процессе генерации. Опираясь на это понимание, мы демонстрируем возможность достижения устойчивой и обобщенной кастомизации видеоконтента в различных сценариях, используя всего 20–50 обучающих примеров без изменения архитектуры или масштабного дообучения. Это раскрывает мощную, недооцененную способность моделей генерации видео к созданию видео на основе референсов.
English
What role does the first frame play in video generation models? Traditionally, it's viewed as the spatial-temporal starting point of a video, merely a seed for subsequent animation. In this work, we reveal a fundamentally different perspective: video models implicitly treat the first frame as a conceptual memory buffer that stores visual entities for later reuse during generation. Leveraging this insight, we show that it's possible to achieve robust and generalized video content customization in diverse scenarios, using only 20-50 training examples without architectural changes or large-scale finetuning. This unveils a powerful, overlooked capability of video generation models for reference-based video customization.
PDF523December 1, 2025