DropletVideo: Un Conjunto de Datos y Enfoque para Explorar la Generación de Video con Consistencia Espacio-Temporal Integral
DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation
March 8, 2025
Autores: Runze Zhang, Guoguang Du, Xiaochuan Li, Qi Jia, Liang Jin, Lu Liu, Jingjing Wang, Cong Xu, Zhenhua Guo, Yaqian Zhao, Xiaoli Gong, Rengang Li, Baoyu Fan
cs.AI
Resumen
La consistencia espacio-temporal es un tema de investigación crítico en la generación de videos. Un segmento de video generado de calidad debe garantizar la plausibilidad y coherencia de la trama, manteniendo al mismo tiempo la consistencia visual de los objetos y escenas a través de diferentes puntos de vista. Investigaciones previas, especialmente en proyectos de código abierto, se centran principalmente en la consistencia temporal o espacial, o en su combinación básica, como agregar una descripción del movimiento de la cámara después de un indicador sin restringir los resultados de dicho movimiento. Sin embargo, el movimiento de la cámara puede introducir nuevos objetos en la escena o eliminar los existentes, superponiendo y afectando así la narrativa previa. Especialmente en videos con numerosos movimientos de cámara, la interacción entre múltiples tramas se vuelve cada vez más compleja. Este artículo introduce y examina la consistencia espacio-temporal integral, considerando la sinergia entre la progresión de la trama y las técnicas de cámara, así como el impacto a largo plazo del contenido previo en la generación posterior. Nuestra investigación abarca desde la construcción del conjunto de datos hasta el desarrollo del modelo. Inicialmente, construimos un conjunto de datos llamado DropletVideo-10M, que comprende 10 millones de videos con movimiento dinámico de cámara y acciones de objetos. Cada video está anotado con una descripción promedio de 206 palabras, detallando diversos movimientos de cámara y desarrollos de la trama. Posteriormente, desarrollamos y entrenamos el modelo DropletVideo, que destaca por preservar la coherencia espacio-temporal durante la generación de videos. El conjunto de datos y el modelo DropletVideo están disponibles en https://dropletx.github.io.
English
Spatio-temporal consistency is a critical research topic in video generation.
A qualified generated video segment must ensure plot plausibility and coherence
while maintaining visual consistency of objects and scenes across varying
viewpoints. Prior research, especially in open-source projects, primarily
focuses on either temporal or spatial consistency, or their basic combination,
such as appending a description of a camera movement after a prompt without
constraining the outcomes of this movement. However, camera movement may
introduce new objects to the scene or eliminate existing ones, thereby
overlaying and affecting the preceding narrative. Especially in videos with
numerous camera movements, the interplay between multiple plots becomes
increasingly complex. This paper introduces and examines integral
spatio-temporal consistency, considering the synergy between plot progression
and camera techniques, and the long-term impact of prior content on subsequent
generation. Our research encompasses dataset construction through to the
development of the model. Initially, we constructed a DropletVideo-10M dataset,
which comprises 10 million videos featuring dynamic camera motion and object
actions. Each video is annotated with an average caption of 206 words,
detailing various camera movements and plot developments. Following this, we
developed and trained the DropletVideo model, which excels in preserving
spatio-temporal coherence during video generation. The DropletVideo dataset and
model are accessible at https://dropletx.github.io.Summary
AI-Generated Summary