Sel3DCraft: Интерактивные визуальные подсказки для удобного преобразования текста в 3D
Sel3DCraft: Interactive Visual Prompts for User-Friendly Text-to-3D Generation
August 1, 2025
Авторы: Nan Xiang, Tianyi Liang, Haiwen Huang, Shiqi Jiang, Hao Huang, Yifei Huang, Liangyu Chen, Changbo Wang, Chenhui Li
cs.AI
Аннотация
Генерация 3D-моделей из текста (Text-to-3D, T23D) произвела революцию в создании цифрового контента, однако до сих пор ограничивается методом проб и ошибок, который приводит к непредсказуемым результатам. Хотя визуальное проектирование подсказок (prompt engineering) значительно продвинулось в области генерации изображений из текста, его применение для создания 3D-моделей сталкивается с уникальными вызовами, такими как необходимость оценки согласованности между несколькими видами и понимания пространственной структуры. Мы представляем Sel3DCraft — систему визуального проектирования подсказок для T23D, которая превращает неструктурированный поиск в управляемый визуальный процесс. Наш подход включает три ключевых инновации: двухветвевую структуру, объединяющую поиск и генерацию для исследования разнообразных кандидатов; гибридный метод оценки по нескольким видам, который использует мультимодальные языковые модели (MLLMs) с инновационными метриками высокого уровня для оценки 3D-моделей с согласованностью, близкой к экспертной; и набор инструментов визуальной аналитики на основе подсказок, который позволяет интуитивно выявлять и устранять дефекты. Многочисленные тесты и пользовательские исследования показывают, что Sel3DCraft превосходит другие системы T23D в поддержке творческого процесса для дизайнеров.
English
Text-to-3D (T23D) generation has transformed digital content creation, yet
remains bottlenecked by blind trial-and-error prompting processes that yield
unpredictable results. While visual prompt engineering has advanced in
text-to-image domains, its application to 3D generation presents unique
challenges requiring multi-view consistency evaluation and spatial
understanding. We present Sel3DCraft, a visual prompt engineering system for
T23D that transforms unstructured exploration into a guided visual process. Our
approach introduces three key innovations: a dual-branch structure combining
retrieval and generation for diverse candidate exploration; a multi-view hybrid
scoring approach that leverages MLLMs with innovative high-level metrics to
assess 3D models with human-expert consistency; and a prompt-driven visual
analytics suite that enables intuitive defect identification and refinement.
Extensive testing and user studies demonstrate that Sel3DCraft surpasses other
T23D systems in supporting creativity for designers.