Droplet3D: Prioris de sentido común a partir de vídeos facilitan la generación 3D

Resumen

Las leyes de escalabilidad han validado el éxito y el potencial de los modelos entrenados con grandes volúmenes de datos en la generación creativa a través de dominios como texto, imágenes y video. Sin embargo, este paradigma enfrenta escasez de datos en el dominio 3D, ya que hay mucho menos disponible en internet en comparación con las modalidades mencionadas. Afortunadamente, existen videos adecuados que contienen de manera inherente conocimientos previos de sentido común, ofreciendo una señal supervisora alternativa para mitigar el cuello de botella de generalización causado por los datos nativos 3D limitados. Por un lado, los videos que capturan múltiples vistas de un objeto o escena proporcionan un conocimiento previo de consistencia espacial para la generación 3D. Por otro lado, la rica información semántica contenida en los videos permite que el contenido generado sea más fiel a las indicaciones de texto y semánticamente plausible. Este artículo explora cómo aplicar la modalidad de video en la generación de activos 3D, abarcando desde conjuntos de datos hasta modelos. Presentamos Droplet3D-4M, el primer conjunto de datos de video a gran escala con anotaciones a nivel de múltiples vistas, y entrenamos Droplet3D, un modelo generativo que admite tanto imágenes como entradas de texto denso. Experimentos extensos validan la efectividad de nuestro enfoque, demostrando su capacidad para producir contenido espacialmente consistente y semánticamente plausible. Además, en contraste con las soluciones 3D predominantes, nuestro enfoque exhibe el potencial de extenderse a aplicaciones a nivel de escena. Esto indica que los conocimientos previos de sentido común de los videos facilitan significativamente la creación 3D. Hemos liberado todos los recursos, incluyendo el conjunto de datos, código, marco técnico y pesos del modelo: https://dropletx.github.io/.

English

Scaling laws have validated the success and promise of large-data-trained models in creative generation across text, image, and video domains. However, this paradigm faces data scarcity in the 3D domain, as there is far less of it available on the internet compared to the aforementioned modalities. Fortunately, there exist adequate videos that inherently contain commonsense priors, offering an alternative supervisory signal to mitigate the generalization bottleneck caused by limited native 3D data. On the one hand, videos capturing multiple views of an object or scene provide a spatial consistency prior for 3D generation. On the other hand, the rich semantic information contained within the videos enables the generated content to be more faithful to the text prompts and semantically plausible. This paper explores how to apply the video modality in 3D asset generation, spanning datasets to models. We introduce Droplet3D-4M, the first large-scale video dataset with multi-view level annotations, and train Droplet3D, a generative model supporting both image and dense text input. Extensive experiments validate the effectiveness of our approach, demonstrating its ability to produce spatially consistent and semantically plausible content. Moreover, in contrast to the prevailing 3D solutions, our approach exhibits the potential for extension to scene-level applications. This indicates that the commonsense priors from the videos significantly facilitate 3D creation. We have open-sourced all resources including the dataset, code, technical framework, and model weights: https://dropletx.github.io/.

Droplet3D: Prioris de sentido común a partir de vídeos facilitan la generación 3D

Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation

Resumen

Support