MARVEL-40M+: Elaboración Visual Multinivel para la Creación de Contenido Texto a 3D de Alta Fidelidad
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation
November 26, 2024
Autores: Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal
cs.AI
Resumen
La generación de contenido 3D de alta fidelidad a partir de indicaciones de texto sigue siendo un desafío significativo en visión por computadora debido al tamaño limitado, la diversidad y la profundidad de anotación de los conjuntos de datos existentes. Para abordar esto, presentamos MARVEL-40M+, un extenso conjunto de datos con 40 millones de anotaciones de texto para más de 8.9 millones de activos 3D recopilados de siete importantes conjuntos de datos 3D. Nuestra contribución es un novedoso proceso de anotación en múltiples etapas que integra VLMs y LLMs preentrenados de múltiples vistas de código abierto para producir automáticamente descripciones de varios niveles, que van desde detalladas (150-200 palabras) hasta etiquetas semánticas concisas (10-20 palabras). Esta estructura respalda tanto la reconstrucción 3D detallada como el prototipado rápido. Además, incorporamos metadatos humanos de los conjuntos de datos fuente en nuestro proceso de anotación para agregar información específica del dominio en nuestras anotaciones y reducir las alucinaciones de los VLM. Adicionalmente, desarrollamos MARVEL-FX3D, un proceso de texto a 3D en dos etapas. Ajustamos Stable Diffusion con nuestras anotaciones y utilizamos una red preentrenada de imagen a 3D para generar mallas texturizadas en 3D en 15 segundos. Evaluaciones exhaustivas muestran que MARVEL-40M+ supera significativamente a los conjuntos de datos existentes en calidad de anotación y diversidad lingüística, logrando tasas de acierto del 72.41% por GPT-4 y del 73.40% por evaluadores humanos.
English
Generating high-fidelity 3D content from text prompts remains a significant
challenge in computer vision due to the limited size, diversity, and annotation
depth of the existing datasets. To address this, we introduce MARVEL-40M+, an
extensive dataset with 40 million text annotations for over 8.9 million 3D
assets aggregated from seven major 3D datasets. Our contribution is a novel
multi-stage annotation pipeline that integrates open-source pretrained
multi-view VLMs and LLMs to automatically produce multi-level descriptions,
ranging from detailed (150-200 words) to concise semantic tags (10-20 words).
This structure supports both fine-grained 3D reconstruction and rapid
prototyping. Furthermore, we incorporate human metadata from source datasets
into our annotation pipeline to add domain-specific information in our
annotation and reduce VLM hallucinations. Additionally, we develop MARVEL-FX3D,
a two-stage text-to-3D pipeline. We fine-tune Stable Diffusion with our
annotations and use a pretrained image-to-3D network to generate 3D textured
meshes within 15s. Extensive evaluations show that MARVEL-40M+ significantly
outperforms existing datasets in annotation quality and linguistic diversity,
achieving win rates of 72.41% by GPT-4 and 73.40% by human evaluators.Summary
AI-Generated Summary