ChatPaper.aiChatPaper

Droplet3D: Prioridades de Senso Comum a partir de Vídeos Facilitam a Geração 3D

Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation

August 28, 2025
Autores: Xiaochuan Li, Guoguang Du, Runze Zhang, Liang Jin, Qi Jia, Lihua Lu, Zhenhua Guo, Yaqian Zhao, Haiyang Liu, Tianqi Wang, Changsheng Li, Xiaoli Gong, Rengang Li, Baoyu Fan
cs.AI

Resumo

As leis de escala validaram o sucesso e a promessa de modelos treinados com grandes volumes de dados na geração criativa em domínios como texto, imagem e vídeo. No entanto, esse paradigma enfrenta escassez de dados no domínio 3D, já que há muito menos disponível na internet em comparação com as modalidades mencionadas. Felizmente, existem vídeos adequados que contêm, de forma inerente, conhecimentos prévios de senso comum, oferecendo um sinal de supervisão alternativo para mitigar o gargalo de generalização causado pela limitação de dados nativos 3D. Por um lado, vídeos que capturam múltiplas visões de um objeto ou cena fornecem um conhecimento prévio de consistência espacial para a geração 3D. Por outro lado, as ricas informações semânticas contidas nos vídeos permitem que o conteúdo gerado seja mais fiel aos prompts de texto e semanticamente plausível. Este artigo explora como aplicar a modalidade de vídeo na geração de ativos 3D, abrangendo desde conjuntos de dados até modelos. Apresentamos o Droplet3D-4M, o primeiro conjunto de dados de vídeo em grande escala com anotações em nível de múltiplas visões, e treinamos o Droplet3D, um modelo generativo que suporta tanto entrada de imagem quanto de texto denso. Experimentos extensivos validam a eficácia da nossa abordagem, demonstrando sua capacidade de produzir conteúdo espacialmente consistente e semanticamente plausível. Além disso, em contraste com as soluções 3D predominantes, nossa abordagem exibe potencial para extensão a aplicações em nível de cena. Isso indica que os conhecimentos prévios de senso comum dos vídeos facilitam significativamente a criação 3D. Disponibilizamos todos os recursos, incluindo o conjunto de dados, código, estrutura técnica e pesos do modelo, em código aberto: https://dropletx.github.io/.
English
Scaling laws have validated the success and promise of large-data-trained models in creative generation across text, image, and video domains. However, this paradigm faces data scarcity in the 3D domain, as there is far less of it available on the internet compared to the aforementioned modalities. Fortunately, there exist adequate videos that inherently contain commonsense priors, offering an alternative supervisory signal to mitigate the generalization bottleneck caused by limited native 3D data. On the one hand, videos capturing multiple views of an object or scene provide a spatial consistency prior for 3D generation. On the other hand, the rich semantic information contained within the videos enables the generated content to be more faithful to the text prompts and semantically plausible. This paper explores how to apply the video modality in 3D asset generation, spanning datasets to models. We introduce Droplet3D-4M, the first large-scale video dataset with multi-view level annotations, and train Droplet3D, a generative model supporting both image and dense text input. Extensive experiments validate the effectiveness of our approach, demonstrating its ability to produce spatially consistent and semantically plausible content. Moreover, in contrast to the prevailing 3D solutions, our approach exhibits the potential for extension to scene-level applications. This indicates that the commonsense priors from the videos significantly facilitate 3D creation. We have open-sourced all resources including the dataset, code, technical framework, and model weights: https://dropletx.github.io/.
PDF642September 1, 2025