MARVEL-40M+: Elaboration Visuelle Multi-Niveaux pour la Création de Contenu Textuel en 3D Haute Fidélité
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation
November 26, 2024
Auteurs: Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal
cs.AI
Résumé
La génération de contenu 3D haute fidélité à partir de descriptions textuelles reste un défi majeur en vision par ordinateur en raison de la taille limitée, de la diversité et de la profondeur d'annotation des ensembles de données existants. Pour remédier à cela, nous présentons MARVEL-40M+, un ensemble de données étendu comprenant 40 millions d'annotations textuelles pour plus de 8,9 millions d'éléments 3D provenant de sept ensembles de données 3D majeurs. Notre contribution est un nouveau pipeline d'annotation multi-étapes qui intègre des VLMs et LLMs pré-entraînés multi-vues en open source pour produire automatiquement des descriptions multi-niveaux, allant de détaillées (150-200 mots) à des balises sémantiques concises (10-20 mots). Cette structure prend en charge à la fois la reconstruction 3D détaillée et le prototypage rapide. De plus, nous incorporons des métadonnées humaines des ensembles de données sources dans notre pipeline d'annotation pour ajouter des informations spécifiques au domaine dans notre annotation et réduire les hallucinations des VLM. En outre, nous développons MARVEL-FX3D, un pipeline texte-3D en deux étapes. Nous adaptons Stable Diffusion avec nos annotations et utilisons un réseau image-3D pré-entraîné pour générer des maillages 3D texturés en moins de 15 secondes. Des évaluations approfondies montrent que MARVEL-40M+ surpasse significativement les ensembles de données existants en termes de qualité d'annotation et de diversité linguistique, atteignant des taux de réussite de 72,41% par GPT-4 et de 73,40% par les évaluateurs humains.
English
Generating high-fidelity 3D content from text prompts remains a significant
challenge in computer vision due to the limited size, diversity, and annotation
depth of the existing datasets. To address this, we introduce MARVEL-40M+, an
extensive dataset with 40 million text annotations for over 8.9 million 3D
assets aggregated from seven major 3D datasets. Our contribution is a novel
multi-stage annotation pipeline that integrates open-source pretrained
multi-view VLMs and LLMs to automatically produce multi-level descriptions,
ranging from detailed (150-200 words) to concise semantic tags (10-20 words).
This structure supports both fine-grained 3D reconstruction and rapid
prototyping. Furthermore, we incorporate human metadata from source datasets
into our annotation pipeline to add domain-specific information in our
annotation and reduce VLM hallucinations. Additionally, we develop MARVEL-FX3D,
a two-stage text-to-3D pipeline. We fine-tune Stable Diffusion with our
annotations and use a pretrained image-to-3D network to generate 3D textured
meshes within 15s. Extensive evaluations show that MARVEL-40M+ significantly
outperforms existing datasets in annotation quality and linguistic diversity,
achieving win rates of 72.41% by GPT-4 and 73.40% by human evaluators.Summary
AI-Generated Summary