Sel3DCraft: Prompt Visivi Interattivi per una Generazione Testo-3D User-Friendly
Sel3DCraft: Interactive Visual Prompts for User-Friendly Text-to-3D Generation
August 1, 2025
Autori: Nan Xiang, Tianyi Liang, Haiwen Huang, Shiqi Jiang, Hao Huang, Yifei Huang, Liangyu Chen, Changbo Wang, Chenhui Li
cs.AI
Abstract
La generazione da testo a 3D (T23D) ha rivoluzionato la creazione di contenuti digitali, ma rimane limitata da processi di prompt basati su tentativi ed errori che producono risultati imprevedibili. Sebbene l'ingegneria dei prompt visivi abbia fatto progressi nei domini di testo-immagine, la sua applicazione alla generazione 3D presenta sfide uniche che richiedono la valutazione della coerenza multi-vista e la comprensione spaziale. Presentiamo Sel3DCraft, un sistema di ingegneria dei prompt visivi per T23D che trasforma l'esplorazione non strutturata in un processo visivo guidato. Il nostro approccio introduce tre innovazioni chiave: una struttura a doppio ramo che combina recupero e generazione per l'esplorazione di candidati diversificati; un approccio di valutazione ibrida multi-vista che sfrutta i MLLM con metriche innovative di alto livello per valutare i modelli 3D con coerenza da esperto umano; e una suite di analisi visiva guidata da prompt che consente l'identificazione e il perfezionamento intuitivo dei difetti. Test estensivi e studi sugli utenti dimostrano che Sel3DCraft supera altri sistemi T23D nel supportare la creatività dei designer.
English
Text-to-3D (T23D) generation has transformed digital content creation, yet
remains bottlenecked by blind trial-and-error prompting processes that yield
unpredictable results. While visual prompt engineering has advanced in
text-to-image domains, its application to 3D generation presents unique
challenges requiring multi-view consistency evaluation and spatial
understanding. We present Sel3DCraft, a visual prompt engineering system for
T23D that transforms unstructured exploration into a guided visual process. Our
approach introduces three key innovations: a dual-branch structure combining
retrieval and generation for diverse candidate exploration; a multi-view hybrid
scoring approach that leverages MLLMs with innovative high-level metrics to
assess 3D models with human-expert consistency; and a prompt-driven visual
analytics suite that enables intuitive defect identification and refinement.
Extensive testing and user studies demonstrate that Sel3DCraft surpasses other
T23D systems in supporting creativity for designers.