Droplet3D: Prioris de sentido común a partir de vídeos facilitan la generación 3D
Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation
August 28, 2025
Autores: Xiaochuan Li, Guoguang Du, Runze Zhang, Liang Jin, Qi Jia, Lihua Lu, Zhenhua Guo, Yaqian Zhao, Haiyang Liu, Tianqi Wang, Changsheng Li, Xiaoli Gong, Rengang Li, Baoyu Fan
cs.AI
Resumen
Las leyes de escalabilidad han validado el éxito y el potencial de los modelos entrenados con grandes volúmenes de datos en la generación creativa a través de dominios como texto, imágenes y video. Sin embargo, este paradigma enfrenta escasez de datos en el dominio 3D, ya que hay mucho menos disponible en internet en comparación con las modalidades mencionadas. Afortunadamente, existen videos adecuados que contienen de manera inherente conocimientos previos de sentido común, ofreciendo una señal supervisora alternativa para mitigar el cuello de botella de generalización causado por los datos nativos 3D limitados. Por un lado, los videos que capturan múltiples vistas de un objeto o escena proporcionan un conocimiento previo de consistencia espacial para la generación 3D. Por otro lado, la rica información semántica contenida en los videos permite que el contenido generado sea más fiel a las indicaciones de texto y semánticamente plausible. Este artículo explora cómo aplicar la modalidad de video en la generación de activos 3D, abarcando desde conjuntos de datos hasta modelos. Presentamos Droplet3D-4M, el primer conjunto de datos de video a gran escala con anotaciones a nivel de múltiples vistas, y entrenamos Droplet3D, un modelo generativo que admite tanto imágenes como entradas de texto denso. Experimentos extensos validan la efectividad de nuestro enfoque, demostrando su capacidad para producir contenido espacialmente consistente y semánticamente plausible. Además, en contraste con las soluciones 3D predominantes, nuestro enfoque exhibe el potencial de extenderse a aplicaciones a nivel de escena. Esto indica que los conocimientos previos de sentido común de los videos facilitan significativamente la creación 3D. Hemos liberado todos los recursos, incluyendo el conjunto de datos, código, marco técnico y pesos del modelo: https://dropletx.github.io/.
English
Scaling laws have validated the success and promise of large-data-trained
models in creative generation across text, image, and video domains. However,
this paradigm faces data scarcity in the 3D domain, as there is far less of it
available on the internet compared to the aforementioned modalities.
Fortunately, there exist adequate videos that inherently contain commonsense
priors, offering an alternative supervisory signal to mitigate the
generalization bottleneck caused by limited native 3D data. On the one hand,
videos capturing multiple views of an object or scene provide a spatial
consistency prior for 3D generation. On the other hand, the rich semantic
information contained within the videos enables the generated content to be
more faithful to the text prompts and semantically plausible. This paper
explores how to apply the video modality in 3D asset generation, spanning
datasets to models. We introduce Droplet3D-4M, the first large-scale video
dataset with multi-view level annotations, and train Droplet3D, a generative
model supporting both image and dense text input. Extensive experiments
validate the effectiveness of our approach, demonstrating its ability to
produce spatially consistent and semantically plausible content. Moreover, in
contrast to the prevailing 3D solutions, our approach exhibits the potential
for extension to scene-level applications. This indicates that the commonsense
priors from the videos significantly facilitate 3D creation. We have
open-sourced all resources including the dataset, code, technical framework,
and model weights: https://dropletx.github.io/.