MARVEL-40M+: Elaboration Visuelle Multi-Niveaux pour la Création de Contenu Textuel en 3D Haute Fidélité

papers.abstract

La génération de contenu 3D haute fidélité à partir de descriptions textuelles reste un défi majeur en vision par ordinateur en raison de la taille limitée, de la diversité et de la profondeur d'annotation des ensembles de données existants. Pour remédier à cela, nous présentons MARVEL-40M+, un ensemble de données étendu comprenant 40 millions d'annotations textuelles pour plus de 8,9 millions d'éléments 3D provenant de sept ensembles de données 3D majeurs. Notre contribution est un nouveau pipeline d'annotation multi-étapes qui intègre des VLMs et LLMs pré-entraînés multi-vues en open source pour produire automatiquement des descriptions multi-niveaux, allant de détaillées (150-200 mots) à des balises sémantiques concises (10-20 mots). Cette structure prend en charge à la fois la reconstruction 3D détaillée et le prototypage rapide. De plus, nous incorporons des métadonnées humaines des ensembles de données sources dans notre pipeline d'annotation pour ajouter des informations spécifiques au domaine dans notre annotation et réduire les hallucinations des VLM. En outre, nous développons MARVEL-FX3D, un pipeline texte-3D en deux étapes. Nous adaptons Stable Diffusion avec nos annotations et utilisons un réseau image-3D pré-entraîné pour générer des maillages 3D texturés en moins de 15 secondes. Des évaluations approfondies montrent que MARVEL-40M+ surpasse significativement les ensembles de données existants en termes de qualité d'annotation et de diversité linguistique, atteignant des taux de réussite de 72,41% par GPT-4 et de 73,40% par les évaluateurs humains.

English

Generating high-fidelity 3D content from text prompts remains a significant challenge in computer vision due to the limited size, diversity, and annotation depth of the existing datasets. To address this, we introduce MARVEL-40M+, an extensive dataset with 40 million text annotations for over 8.9 million 3D assets aggregated from seven major 3D datasets. Our contribution is a novel multi-stage annotation pipeline that integrates open-source pretrained multi-view VLMs and LLMs to automatically produce multi-level descriptions, ranging from detailed (150-200 words) to concise semantic tags (10-20 words). This structure supports both fine-grained 3D reconstruction and rapid prototyping. Furthermore, we incorporate human metadata from source datasets into our annotation pipeline to add domain-specific information in our annotation and reduce VLM hallucinations. Additionally, we develop MARVEL-FX3D, a two-stage text-to-3D pipeline. We fine-tune Stable Diffusion with our annotations and use a pretrained image-to-3D network to generate 3D textured meshes within 15s. Extensive evaluations show that MARVEL-40M+ significantly outperforms existing datasets in annotation quality and linguistic diversity, achieving win rates of 72.41% by GPT-4 and 73.40% by human evaluators.

MARVEL-40M+: Elaboration Visuelle Multi-Niveaux pour la Création de Contenu Textuel en 3D Haute Fidélité

MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

papers.abstract

Support