Sel3DCraft: Interactieve Visuele Prompts voor Gebruiksvriendelijke Tekst-naar-3D Generatie
Sel3DCraft: Interactive Visual Prompts for User-Friendly Text-to-3D Generation
August 1, 2025
Auteurs: Nan Xiang, Tianyi Liang, Haiwen Huang, Shiqi Jiang, Hao Huang, Yifei Huang, Liangyu Chen, Changbo Wang, Chenhui Li
cs.AI
Samenvatting
Text-to-3D (T23D)-generatie heeft digitale contentcreatie getransformeerd, maar blijft beperkt door blinde trial-and-error-promptprocessen die onvoorspelbare resultaten opleveren. Hoewel visuele promptengineering in tekst-naar-beeld-domeinen is gevorderd, brengt de toepassing ervan op 3D-generatie unieke uitdagingen met zich mee die multi-view consistentie-evaluatie en ruimtelijk begrip vereisen. Wij presenteren Sel3DCraft, een visueel promptengineeringsysteem voor T23D dat ongestructureerde exploratie omzet in een begeleid visueel proces. Onze aanpak introduceert drie belangrijke innovaties: een dual-branch-structuur die retrieval en generatie combineert voor diverse kandidaat-exploratie; een multi-view hybride scoringsmethode die MLLM's benut met innovatieve hoogwaardige metrieken om 3D-modellen te beoordelen met menselijk-expertconsistentie; en een prompt-gestuurde visuele analyse-suite die intuïtieve defectidentificatie en verfijning mogelijk maakt. Uitgebreide tests en gebruikersstudies tonen aan dat Sel3DCraft andere T23D-systemen overtreft in het ondersteunen van creativiteit voor ontwerpers.
English
Text-to-3D (T23D) generation has transformed digital content creation, yet
remains bottlenecked by blind trial-and-error prompting processes that yield
unpredictable results. While visual prompt engineering has advanced in
text-to-image domains, its application to 3D generation presents unique
challenges requiring multi-view consistency evaluation and spatial
understanding. We present Sel3DCraft, a visual prompt engineering system for
T23D that transforms unstructured exploration into a guided visual process. Our
approach introduces three key innovations: a dual-branch structure combining
retrieval and generation for diverse candidate exploration; a multi-view hybrid
scoring approach that leverages MLLMs with innovative high-level metrics to
assess 3D models with human-expert consistency; and a prompt-driven visual
analytics suite that enables intuitive defect identification and refinement.
Extensive testing and user studies demonstrate that Sel3DCraft surpasses other
T23D systems in supporting creativity for designers.