ChatPaper.aiChatPaper

MARVEL-40M+: Elaboração Visual Multinível para Criação de Conteúdo Textual em 3D de Alta Fidelidade

MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

November 26, 2024
Autores: Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal
cs.AI

Resumo

A geração de conteúdo 3D de alta fidelidade a partir de instruções de texto continua sendo um desafio significativo em visão computacional devido ao tamanho limitado, diversidade e profundidade de anotação dos conjuntos de dados existentes. Para lidar com isso, apresentamos o MARVEL-40M+, um extenso conjunto de dados com 40 milhões de anotações de texto para mais de 8,9 milhões de ativos 3D agregados de sete grandes conjuntos de dados 3D. Nossa contribuição é um novo pipeline de anotação em múltiplos estágios que integra VLMs e LLMs pré-treinados de várias visualizações de código aberto para produzir automaticamente descrições em vários níveis, que vão de detalhadas (150-200 palavras) a tags semânticas concisas (10-20 palavras). Essa estrutura suporta tanto a reconstrução 3D detalhada quanto a prototipagem rápida. Além disso, incorporamos metadados humanos dos conjuntos de dados de origem em nosso pipeline de anotação para adicionar informações específicas de domínio em nossas anotações e reduzir alucinações de VLM. Adicionalmente, desenvolvemos o MARVEL-FX3D, um pipeline de texto para 3D em dois estágios. Ajustamos o Stable Diffusion com nossas anotações e utilizamos uma rede pré-treinada de imagem para 3D para gerar malhas 3D texturizadas em 15 segundos. Avaliações extensivas mostram que o MARVEL-40M+ supera significativamente os conjuntos de dados existentes em qualidade de anotação e diversidade linguística, alcançando taxas de acerto de 72,41% por GPT-4 e 73,40% por avaliadores humanos.
English
Generating high-fidelity 3D content from text prompts remains a significant challenge in computer vision due to the limited size, diversity, and annotation depth of the existing datasets. To address this, we introduce MARVEL-40M+, an extensive dataset with 40 million text annotations for over 8.9 million 3D assets aggregated from seven major 3D datasets. Our contribution is a novel multi-stage annotation pipeline that integrates open-source pretrained multi-view VLMs and LLMs to automatically produce multi-level descriptions, ranging from detailed (150-200 words) to concise semantic tags (10-20 words). This structure supports both fine-grained 3D reconstruction and rapid prototyping. Furthermore, we incorporate human metadata from source datasets into our annotation pipeline to add domain-specific information in our annotation and reduce VLM hallucinations. Additionally, we develop MARVEL-FX3D, a two-stage text-to-3D pipeline. We fine-tune Stable Diffusion with our annotations and use a pretrained image-to-3D network to generate 3D textured meshes within 15s. Extensive evaluations show that MARVEL-40M+ significantly outperforms existing datasets in annotation quality and linguistic diversity, achieving win rates of 72.41% by GPT-4 and 73.40% by human evaluators.

Summary

AI-Generated Summary

PDF214November 28, 2024