O First Frame É o Destino Ideal para Personalização de Conteúdo em Vídeo

Resumo

Qual é o papel do primeiro quadro em modelos de geração de vídeo? Tradicionalmente, é visto como o ponto de partida espaço-temporal de um vídeo, meramente uma semente para a animação subsequente. Neste trabalho, revelamos uma perspectiva fundamentalmente diferente: os modelos de vídeo tratam implicitamente o primeiro quadro como um *buffer* de memória conceitual que armazena entidades visuais para reutilização posterior durante a geração. Aproveitando essa percepção, demonstramos que é possível alcançar uma personalização de conteúdo de vídeo robusta e generalizada em diversos cenários, usando apenas 20-50 exemplos de treinamento, sem alterações arquiteturais ou *fine-tuning* em larga escala. Isso revela uma capacidade poderosa e negligenciada dos modelos de geração de vídeo para personalização baseada em referência.

English

What role does the first frame play in video generation models? Traditionally, it's viewed as the spatial-temporal starting point of a video, merely a seed for subsequent animation. In this work, we reveal a fundamentally different perspective: video models implicitly treat the first frame as a conceptual memory buffer that stores visual entities for later reuse during generation. Leveraging this insight, we show that it's possible to achieve robust and generalized video content customization in diverse scenarios, using only 20-50 training examples without architectural changes or large-scale finetuning. This unveils a powerful, overlooked capability of video generation models for reference-based video customization.