Sel3DCraft: Indicaciones Visuales Interactivas para la Generación de Texto a 3D Amigable para el Usuario
Sel3DCraft: Interactive Visual Prompts for User-Friendly Text-to-3D Generation
August 1, 2025
Autores: Nan Xiang, Tianyi Liang, Haiwen Huang, Shiqi Jiang, Hao Huang, Yifei Huang, Liangyu Chen, Changbo Wang, Chenhui Li
cs.AI
Resumen
La generación de texto a 3D (T23D) ha transformado la creación de contenido digital, pero sigue limitada por procesos de prueba y error ciegos que producen resultados impredecibles. Si bien la ingeniería de prompts visuales ha avanzado en los dominios de texto a imagen, su aplicación en la generación 3D presenta desafíos únicos que requieren evaluación de consistencia multi-vista y comprensión espacial. Presentamos Sel3DCraft, un sistema de ingeniería de prompts visuales para T23D que transforma la exploración no estructurada en un proceso visual guiado. Nuestro enfoque introduce tres innovaciones clave: una estructura de doble rama que combina recuperación y generación para la exploración de candidatos diversos; un enfoque de puntuación híbrida multi-vista que aprovecha los MLLMs con métricas innovadoras de alto nivel para evaluar modelos 3D con consistencia experta humana; y un conjunto de análisis visual basado en prompts que permite la identificación y refinamiento intuitivo de defectos. Pruebas exhaustivas y estudios de usuarios demuestran que Sel3DCraft supera a otros sistemas T23D en el apoyo a la creatividad de los diseñadores.
English
Text-to-3D (T23D) generation has transformed digital content creation, yet
remains bottlenecked by blind trial-and-error prompting processes that yield
unpredictable results. While visual prompt engineering has advanced in
text-to-image domains, its application to 3D generation presents unique
challenges requiring multi-view consistency evaluation and spatial
understanding. We present Sel3DCraft, a visual prompt engineering system for
T23D that transforms unstructured exploration into a guided visual process. Our
approach introduces three key innovations: a dual-branch structure combining
retrieval and generation for diverse candidate exploration; a multi-view hybrid
scoring approach that leverages MLLMs with innovative high-level metrics to
assess 3D models with human-expert consistency; and a prompt-driven visual
analytics suite that enables intuitive defect identification and refinement.
Extensive testing and user studies demonstrate that Sel3DCraft surpasses other
T23D systems in supporting creativity for designers.