Sel3DCraft: Prompts Visuais Interativos para Geração de Texto para 3D Amigável ao Usuário
Sel3DCraft: Interactive Visual Prompts for User-Friendly Text-to-3D Generation
August 1, 2025
Autores: Nan Xiang, Tianyi Liang, Haiwen Huang, Shiqi Jiang, Hao Huang, Yifei Huang, Liangyu Chen, Changbo Wang, Chenhui Li
cs.AI
Resumo
A geração de Texto-para-3D (T23D) revolucionou a criação de conteúdo digital, mas ainda enfrenta gargalos devido a processos de prompt por tentativa e erro que produzem resultados imprevisíveis. Embora a engenharia de prompts visuais tenha avançado no domínio de texto-para-imagem, sua aplicação na geração 3D apresenta desafios únicos que exigem avaliação de consistência multi-visual e compreensão espacial. Apresentamos o Sel3DCraft, um sistema de engenharia de prompts visuais para T23D que transforma a exploração não estruturada em um processo visual guiado. Nossa abordagem introduz três inovações principais: uma estrutura de duplo ramo que combina recuperação e geração para exploração diversificada de candidatos; uma abordagem de pontuação híbrida multi-visual que utiliza MLLMs com métricas inovadoras de alto nível para avaliar modelos 3D com consistência de especialistas humanos; e um conjunto de análises visuais orientadas por prompts que permite a identificação e refinamento intuitivos de defeitos. Testes extensivos e estudos com usuários demonstram que o Sel3DCraft supera outros sistemas T23D no suporte à criatividade de designers.
English
Text-to-3D (T23D) generation has transformed digital content creation, yet
remains bottlenecked by blind trial-and-error prompting processes that yield
unpredictable results. While visual prompt engineering has advanced in
text-to-image domains, its application to 3D generation presents unique
challenges requiring multi-view consistency evaluation and spatial
understanding. We present Sel3DCraft, a visual prompt engineering system for
T23D that transforms unstructured exploration into a guided visual process. Our
approach introduces three key innovations: a dual-branch structure combining
retrieval and generation for diverse candidate exploration; a multi-view hybrid
scoring approach that leverages MLLMs with innovative high-level metrics to
assess 3D models with human-expert consistency; and a prompt-driven visual
analytics suite that enables intuitive defect identification and refinement.
Extensive testing and user studies demonstrate that Sel3DCraft surpasses other
T23D systems in supporting creativity for designers.