MARVEL-40M+: Elaboración Visual Multinivel para la Creación de Contenido Texto a 3D de Alta Fidelidad

Resumen

La generación de contenido 3D de alta fidelidad a partir de indicaciones de texto sigue siendo un desafío significativo en visión por computadora debido al tamaño limitado, la diversidad y la profundidad de anotación de los conjuntos de datos existentes. Para abordar esto, presentamos MARVEL-40M+, un extenso conjunto de datos con 40 millones de anotaciones de texto para más de 8.9 millones de activos 3D recopilados de siete importantes conjuntos de datos 3D. Nuestra contribución es un novedoso proceso de anotación en múltiples etapas que integra VLMs y LLMs preentrenados de múltiples vistas de código abierto para producir automáticamente descripciones de varios niveles, que van desde detalladas (150-200 palabras) hasta etiquetas semánticas concisas (10-20 palabras). Esta estructura respalda tanto la reconstrucción 3D detallada como el prototipado rápido. Además, incorporamos metadatos humanos de los conjuntos de datos fuente en nuestro proceso de anotación para agregar información específica del dominio en nuestras anotaciones y reducir las alucinaciones de los VLM. Adicionalmente, desarrollamos MARVEL-FX3D, un proceso de texto a 3D en dos etapas. Ajustamos Stable Diffusion con nuestras anotaciones y utilizamos una red preentrenada de imagen a 3D para generar mallas texturizadas en 3D en 15 segundos. Evaluaciones exhaustivas muestran que MARVEL-40M+ supera significativamente a los conjuntos de datos existentes en calidad de anotación y diversidad lingüística, logrando tasas de acierto del 72.41% por GPT-4 y del 73.40% por evaluadores humanos.

English

Generating high-fidelity 3D content from text prompts remains a significant challenge in computer vision due to the limited size, diversity, and annotation depth of the existing datasets. To address this, we introduce MARVEL-40M+, an extensive dataset with 40 million text annotations for over 8.9 million 3D assets aggregated from seven major 3D datasets. Our contribution is a novel multi-stage annotation pipeline that integrates open-source pretrained multi-view VLMs and LLMs to automatically produce multi-level descriptions, ranging from detailed (150-200 words) to concise semantic tags (10-20 words). This structure supports both fine-grained 3D reconstruction and rapid prototyping. Furthermore, we incorporate human metadata from source datasets into our annotation pipeline to add domain-specific information in our annotation and reduce VLM hallucinations. Additionally, we develop MARVEL-FX3D, a two-stage text-to-3D pipeline. We fine-tune Stable Diffusion with our annotations and use a pretrained image-to-3D network to generate 3D textured meshes within 15s. Extensive evaluations show that MARVEL-40M+ significantly outperforms existing datasets in annotation quality and linguistic diversity, achieving win rates of 72.41% by GPT-4 and 73.40% by human evaluators.

MARVEL-40M+: Elaboración Visual Multinivel para la Creación de Contenido Texto a 3D de Alta Fidelidad

MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

Resumen

Support