DropletVideo: Um Conjunto de Dados e Abordagem para Explorar a Geração de Vídeo com Consistência Espaço-Temporal Integral
DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation
March 8, 2025
Autores: Runze Zhang, Guoguang Du, Xiaochuan Li, Qi Jia, Liang Jin, Lu Liu, Jingjing Wang, Cong Xu, Zhenhua Guo, Yaqian Zhao, Xiaoli Gong, Rengang Li, Baoyu Fan
cs.AI
Resumo
A consistência espaço-temporal é um tópico de pesquisa crítico na geração de vídeos. Um segmento de vídeo gerado qualificado deve garantir a plausibilidade e coerência da narrativa, mantendo a consistência visual de objetos e cenas em diferentes pontos de vista. Pesquisas anteriores, especialmente em projetos de código aberto, concentram-se principalmente na consistência temporal ou espacial, ou em sua combinação básica, como adicionar uma descrição de movimento de câmera após um prompt sem restringir os resultados desse movimento. No entanto, o movimento da câmera pode introduzir novos objetos na cena ou eliminar os existentes, sobrepondo e afetando a narrativa anterior. Especialmente em vídeos com numerosos movimentos de câmera, a interação entre múltiplas tramas torna-se cada vez mais complexa. Este artigo introduz e examina a consistência espaço-temporal integral, considerando a sinergia entre a progressão da trama e as técnicas de câmera, e o impacto de longo prazo do conteúdo anterior na geração subsequente. Nossa pesquisa abrange desde a construção de conjuntos de dados até o desenvolvimento do modelo. Inicialmente, construímos o conjunto de dados DropletVideo-10M, que compreende 10 milhões de vídeos com movimentos dinâmicos de câmera e ações de objetos. Cada vídeo é anotado com uma legenda média de 206 palavras, detalhando vários movimentos de câmera e desenvolvimentos da trama. Em seguida, desenvolvemos e treinamos o modelo DropletVideo, que se destaca na preservação da coerência espaço-temporal durante a geração de vídeos. O conjunto de dados e o modelo DropletVideo estão disponíveis em https://dropletx.github.io.
English
Spatio-temporal consistency is a critical research topic in video generation.
A qualified generated video segment must ensure plot plausibility and coherence
while maintaining visual consistency of objects and scenes across varying
viewpoints. Prior research, especially in open-source projects, primarily
focuses on either temporal or spatial consistency, or their basic combination,
such as appending a description of a camera movement after a prompt without
constraining the outcomes of this movement. However, camera movement may
introduce new objects to the scene or eliminate existing ones, thereby
overlaying and affecting the preceding narrative. Especially in videos with
numerous camera movements, the interplay between multiple plots becomes
increasingly complex. This paper introduces and examines integral
spatio-temporal consistency, considering the synergy between plot progression
and camera techniques, and the long-term impact of prior content on subsequent
generation. Our research encompasses dataset construction through to the
development of the model. Initially, we constructed a DropletVideo-10M dataset,
which comprises 10 million videos featuring dynamic camera motion and object
actions. Each video is annotated with an average caption of 206 words,
detailing various camera movements and plot developments. Following this, we
developed and trained the DropletVideo model, which excels in preserving
spatio-temporal coherence during video generation. The DropletVideo dataset and
model are accessible at https://dropletx.github.io.Summary
AI-Generated Summary