ChatPaper.aiChatPaper

Sel3DCraft: Интерактивные визуальные подсказки для удобного преобразования текста в 3D

Sel3DCraft: Interactive Visual Prompts for User-Friendly Text-to-3D Generation

August 1, 2025
Авторы: Nan Xiang, Tianyi Liang, Haiwen Huang, Shiqi Jiang, Hao Huang, Yifei Huang, Liangyu Chen, Changbo Wang, Chenhui Li
cs.AI

Аннотация

Генерация 3D-моделей из текста (Text-to-3D, T23D) произвела революцию в создании цифрового контента, однако до сих пор ограничивается методом проб и ошибок, который приводит к непредсказуемым результатам. Хотя визуальное проектирование подсказок (prompt engineering) значительно продвинулось в области генерации изображений из текста, его применение для создания 3D-моделей сталкивается с уникальными вызовами, такими как необходимость оценки согласованности между несколькими видами и понимания пространственной структуры. Мы представляем Sel3DCraft — систему визуального проектирования подсказок для T23D, которая превращает неструктурированный поиск в управляемый визуальный процесс. Наш подход включает три ключевых инновации: двухветвевую структуру, объединяющую поиск и генерацию для исследования разнообразных кандидатов; гибридный метод оценки по нескольким видам, который использует мультимодальные языковые модели (MLLMs) с инновационными метриками высокого уровня для оценки 3D-моделей с согласованностью, близкой к экспертной; и набор инструментов визуальной аналитики на основе подсказок, который позволяет интуитивно выявлять и устранять дефекты. Многочисленные тесты и пользовательские исследования показывают, что Sel3DCraft превосходит другие системы T23D в поддержке творческого процесса для дизайнеров.
English
Text-to-3D (T23D) generation has transformed digital content creation, yet remains bottlenecked by blind trial-and-error prompting processes that yield unpredictable results. While visual prompt engineering has advanced in text-to-image domains, its application to 3D generation presents unique challenges requiring multi-view consistency evaluation and spatial understanding. We present Sel3DCraft, a visual prompt engineering system for T23D that transforms unstructured exploration into a guided visual process. Our approach introduces three key innovations: a dual-branch structure combining retrieval and generation for diverse candidate exploration; a multi-view hybrid scoring approach that leverages MLLMs with innovative high-level metrics to assess 3D models with human-expert consistency; and a prompt-driven visual analytics suite that enables intuitive defect identification and refinement. Extensive testing and user studies demonstrate that Sel3DCraft surpasses other T23D systems in supporting creativity for designers.
PDF22August 7, 2025