MetaDreamer: Эффективное создание 3D-моделей из текста с разделением геометрии и текстуры
MetaDreamer: Efficient Text-to-3D Creation With Disentangling Geometry and Texture
November 16, 2023
Авторы: Lincong Feng, Muyu Wang, Maoyu Wang, Kuo Xu, Xiaoli Liu
cs.AI
Аннотация
Генеративные модели для синтеза 3D-объектов достигли значительного прогресса благодаря включению априорных знаний, извлеченных из 2D диффузионных моделей. Тем не менее, сохраняются такие проблемы, как многовидовые геометрические несоответствия и низкая скорость генерации в существующих рамках синтеза 3D-объектов. Это можно объяснить двумя факторами: во-первых, недостатком обширных геометрических априорных знаний в процессе оптимизации, а во-вторых, проблемой переплетения геометрии и текстуры в традиционных методах генерации 3D-объектов. В ответ на это мы представляем MetaDreamer, двухэтапный подход к оптимизации, который использует богатые априорные знания как в 2D, так и в 3D. На первом этапе мы сосредотачиваемся на оптимизации геометрического представления для обеспечения многовидовой согласованности и точности 3D-объектов. На втором этапе мы концентрируемся на тонкой настройке геометрии и оптимизации текстуры, достигая более детализированного 3D-объекта. Благодаря использованию 2D и 3D априорных знаний на соответствующих этапах, мы эффективно снижаем взаимозависимость между геометрией и текстурой. MetaDreamer устанавливает четкие цели оптимизации для каждого этапа, что значительно экономит время в процессе генерации 3D-объектов. В итоге MetaDreamer способен генерировать высококачественные 3D-объекты на основе текстовых запросов в течение 20 минут, и, насколько нам известно, это наиболее эффективный метод генерации 3D-объектов из текста. Кроме того, мы внедряем управление изображением в процесс, повышая управляемость генерации 3D-объектов. Многочисленные эмпирические данные подтверждают, что наш метод не только обладает высокой эффективностью, но и достигает уровня качества, соответствующего передовым современным технологиям генерации 3D-объектов.
English
Generative models for 3D object synthesis have seen significant advancements
with the incorporation of prior knowledge distilled from 2D diffusion models.
Nevertheless, challenges persist in the form of multi-view geometric
inconsistencies and slow generation speeds within the existing 3D synthesis
frameworks. This can be attributed to two factors: firstly, the deficiency of
abundant geometric a priori knowledge in optimization, and secondly, the
entanglement issue between geometry and texture in conventional 3D generation
methods.In response, we introduce MetaDreammer, a two-stage optimization
approach that leverages rich 2D and 3D prior knowledge. In the first stage, our
emphasis is on optimizing the geometric representation to ensure multi-view
consistency and accuracy of 3D objects. In the second stage, we concentrate on
fine-tuning the geometry and optimizing the texture, thereby achieving a more
refined 3D object. Through leveraging 2D and 3D prior knowledge in two stages,
respectively, we effectively mitigate the interdependence between geometry and
texture. MetaDreamer establishes clear optimization objectives for each stage,
resulting in significant time savings in the 3D generation process. Ultimately,
MetaDreamer can generate high-quality 3D objects based on textual prompts
within 20 minutes, and to the best of our knowledge, it is the most efficient
text-to-3D generation method. Furthermore, we introduce image control into the
process, enhancing the controllability of 3D generation. Extensive empirical
evidence confirms that our method is not only highly efficient but also
achieves a quality level that is at the forefront of current state-of-the-art
3D generation techniques.