MetaDreamer: Эффективное создание 3D-моделей из текста с разделением геометрии и текстуры

MetaDreamer: Efficient Text-to-3D Creation With Disentangling Geometry and Texture

November 16, 2023
Авторы: Lincong Feng, Muyu Wang, Maoyu Wang, Kuo Xu, Xiaoli Liu
cs.AI

Аннотация

Генеративные модели для синтеза 3D-объектов достигли значительного прогресса благодаря включению априорных знаний, извлеченных из 2D диффузионных моделей. Тем не менее, сохраняются такие проблемы, как многовидовые геометрические несоответствия и низкая скорость генерации в существующих рамках синтеза 3D-объектов. Это можно объяснить двумя факторами: во-первых, недостатком обширных геометрических априорных знаний в процессе оптимизации, а во-вторых, проблемой переплетения геометрии и текстуры в традиционных методах генерации 3D-объектов. В ответ на это мы представляем MetaDreamer, двухэтапный подход к оптимизации, который использует богатые априорные знания как в 2D, так и в 3D. На первом этапе мы сосредотачиваемся на оптимизации геометрического представления для обеспечения многовидовой согласованности и точности 3D-объектов. На втором этапе мы концентрируемся на тонкой настройке геометрии и оптимизации текстуры, достигая более детализированного 3D-объекта. Благодаря использованию 2D и 3D априорных знаний на соответствующих этапах, мы эффективно снижаем взаимозависимость между геометрией и текстурой. MetaDreamer устанавливает четкие цели оптимизации для каждого этапа, что значительно экономит время в процессе генерации 3D-объектов. В итоге MetaDreamer способен генерировать высококачественные 3D-объекты на основе текстовых запросов в течение 20 минут, и, насколько нам известно, это наиболее эффективный метод генерации 3D-объектов из текста. Кроме того, мы внедряем управление изображением в процесс, повышая управляемость генерации 3D-объектов. Многочисленные эмпирические данные подтверждают, что наш метод не только обладает высокой эффективностью, но и достигает уровня качества, соответствующего передовым современным технологиям генерации 3D-объектов.
English
Generative models for 3D object synthesis have seen significant advancements with the incorporation of prior knowledge distilled from 2D diffusion models. Nevertheless, challenges persist in the form of multi-view geometric inconsistencies and slow generation speeds within the existing 3D synthesis frameworks. This can be attributed to two factors: firstly, the deficiency of abundant geometric a priori knowledge in optimization, and secondly, the entanglement issue between geometry and texture in conventional 3D generation methods.In response, we introduce MetaDreammer, a two-stage optimization approach that leverages rich 2D and 3D prior knowledge. In the first stage, our emphasis is on optimizing the geometric representation to ensure multi-view consistency and accuracy of 3D objects. In the second stage, we concentrate on fine-tuning the geometry and optimizing the texture, thereby achieving a more refined 3D object. Through leveraging 2D and 3D prior knowledge in two stages, respectively, we effectively mitigate the interdependence between geometry and texture. MetaDreamer establishes clear optimization objectives for each stage, resulting in significant time savings in the 3D generation process. Ultimately, MetaDreamer can generate high-quality 3D objects based on textual prompts within 20 minutes, and to the best of our knowledge, it is the most efficient text-to-3D generation method. Furthermore, we introduce image control into the process, enhancing the controllability of 3D generation. Extensive empirical evidence confirms that our method is not only highly efficient but also achieves a quality level that is at the forefront of current state-of-the-art 3D generation techniques.
PDF181December 15, 2024