Sel3DCraft: Interaktive visuelle Eingabehilfen für benutzerfreundliche Text-zu-3D-Generierung
Sel3DCraft: Interactive Visual Prompts for User-Friendly Text-to-3D Generation
August 1, 2025
papers.authors: Nan Xiang, Tianyi Liang, Haiwen Huang, Shiqi Jiang, Hao Huang, Yifei Huang, Liangyu Chen, Changbo Wang, Chenhui Li
cs.AI
papers.abstract
Text-to-3D (T23D)-Generierung hat die digitale Inhaltserstellung revolutioniert, bleibt jedoch durch blinde Trial-and-Error-Prompting-Prozesse eingeschränkt, die unvorhersehbare Ergebnisse liefern. Während die visuelle Prompt-Engineering-Technik in Text-zu-Bild-Domänen Fortschritte gemacht hat, stellt ihre Anwendung auf die 3D-Generierung einzigartige Herausforderungen dar, die eine Multi-View-Konsistenzbewertung und räumliches Verständnis erfordern. Wir präsentieren Sel3DCraft, ein visuelles Prompt-Engineering-System für T23D, das unstrukturierte Exploration in einen geführten visuellen Prozess transformiert. Unser Ansatz führt drei Schlüsselinnovationen ein: eine Dual-Branch-Struktur, die Retrieval und Generierung kombiniert, um die Exploration vielfältiger Kandidaten zu ermöglichen; ein Multi-View-Hybrid-Scoring-Ansatz, der MLLMs mit innovativen High-Level-Metriken nutzt, um 3D-Modelle mit menschlicher Expertenkonsistenz zu bewerten; sowie eine Prompt-gesteuerte visuelle Analyselösung, die eine intuitive Fehleridentifikation und -verfeinerung ermöglicht. Umfangreiche Tests und Nutzerstudien zeigen, dass Sel3DCraft andere T23D-Systeme in der Unterstützung der Kreativität von Designern übertrifft.
English
Text-to-3D (T23D) generation has transformed digital content creation, yet
remains bottlenecked by blind trial-and-error prompting processes that yield
unpredictable results. While visual prompt engineering has advanced in
text-to-image domains, its application to 3D generation presents unique
challenges requiring multi-view consistency evaluation and spatial
understanding. We present Sel3DCraft, a visual prompt engineering system for
T23D that transforms unstructured exploration into a guided visual process. Our
approach introduces three key innovations: a dual-branch structure combining
retrieval and generation for diverse candidate exploration; a multi-view hybrid
scoring approach that leverages MLLMs with innovative high-level metrics to
assess 3D models with human-expert consistency; and a prompt-driven visual
analytics suite that enables intuitive defect identification and refinement.
Extensive testing and user studies demonstrate that Sel3DCraft surpasses other
T23D systems in supporting creativity for designers.