ChatPaper.aiChatPaper

Диффузия геометрических изображений: Быстрое и эффективное по данным создание 3D-объектов из текста с помощью поверхностного представления на основе изображений

Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation

September 5, 2024
Авторы: Slava Elizarov, Ciara Rowles, Simon Donné
cs.AI

Аннотация

Создание высококачественных 3D-объектов по текстовым описаниям остается сложной задачей из-за высоких вычислительных затрат, дефицита 3D-данных и сложности представления 3D-информации. Мы представляем Geometry Image Diffusion (GIMDiffusion) — новую модель для генерации 3D-объектов по тексту, которая использует геометрические изображения для эффективного представления 3D-форм с помощью 2D-изображений, что позволяет обойтись без сложных 3D-ориентированных архитектур. Благодаря интеграции механизма Collaborative Control мы используем богатые априорные знания существующих моделей генерации изображений по тексту, таких как Stable Diffusion. Это обеспечивает надежную генерализацию даже при ограниченных объемах обучающих 3D-данных (что позволяет использовать только высококачественные данные для обучения), а также сохраняет совместимость с техниками управления, такими как IPAdapter. Таким образом, GIMDiffusion позволяет создавать 3D-ассеты со скоростью, сопоставимой с современными моделями генерации изображений по тексту. Сгенерированные объекты состоят из семантически значимых отдельных частей и включают внутренние структуры, что повышает как удобство использования, так и универсальность.
English
Generating high-quality 3D objects from textual descriptions remains a challenging problem due to computational cost, the scarcity of 3D data, and complex 3D representations. We introduce Geometry Image Diffusion (GIMDiffusion), a novel Text-to-3D model that utilizes geometry images to efficiently represent 3D shapes using 2D images, thereby avoiding the need for complex 3D-aware architectures. By integrating a Collaborative Control mechanism, we exploit the rich 2D priors of existing Text-to-Image models such as Stable Diffusion. This enables strong generalization even with limited 3D training data (allowing us to use only high-quality training data) as well as retaining compatibility with guidance techniques such as IPAdapter. In short, GIMDiffusion enables the generation of 3D assets at speeds comparable to current Text-to-Image models. The generated objects consist of semantically meaningful, separate parts and include internal structures, enhancing both usability and versatility.
PDF273November 14, 2024