Sel3DCraft: Prompt Visivi Interattivi per una Generazione Testo-3D User-Friendly

Abstract

La generazione da testo a 3D (T23D) ha rivoluzionato la creazione di contenuti digitali, ma rimane limitata da processi di prompt basati su tentativi ed errori che producono risultati imprevedibili. Sebbene l'ingegneria dei prompt visivi abbia fatto progressi nei domini di testo-immagine, la sua applicazione alla generazione 3D presenta sfide uniche che richiedono la valutazione della coerenza multi-vista e la comprensione spaziale. Presentiamo Sel3DCraft, un sistema di ingegneria dei prompt visivi per T23D che trasforma l'esplorazione non strutturata in un processo visivo guidato. Il nostro approccio introduce tre innovazioni chiave: una struttura a doppio ramo che combina recupero e generazione per l'esplorazione di candidati diversificati; un approccio di valutazione ibrida multi-vista che sfrutta i MLLM con metriche innovative di alto livello per valutare i modelli 3D con coerenza da esperto umano; e una suite di analisi visiva guidata da prompt che consente l'identificazione e il perfezionamento intuitivo dei difetti. Test estensivi e studi sugli utenti dimostrano che Sel3DCraft supera altri sistemi T23D nel supportare la creatività dei designer.

English

Text-to-3D (T23D) generation has transformed digital content creation, yet remains bottlenecked by blind trial-and-error prompting processes that yield unpredictable results. While visual prompt engineering has advanced in text-to-image domains, its application to 3D generation presents unique challenges requiring multi-view consistency evaluation and spatial understanding. We present Sel3DCraft, a visual prompt engineering system for T23D that transforms unstructured exploration into a guided visual process. Our approach introduces three key innovations: a dual-branch structure combining retrieval and generation for diverse candidate exploration; a multi-view hybrid scoring approach that leverages MLLMs with innovative high-level metrics to assess 3D models with human-expert consistency; and a prompt-driven visual analytics suite that enables intuitive defect identification and refinement. Extensive testing and user studies demonstrate that Sel3DCraft surpasses other T23D systems in supporting creativity for designers.

Sel3DCraft: Prompt Visivi Interattivi per una Generazione Testo-3D User-Friendly

Sel3DCraft: Interactive Visual Prompts for User-Friendly Text-to-3D Generation

Abstract

Support