ChatPaper.aiChatPaper

MeshFormer: Генерация сетки высокого качества с трехмерной реконструкцией по образцу

MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model

August 19, 2024
Авторы: Minghua Liu, Chong Zeng, Xinyue Wei, Ruoxi Shi, Linghao Chen, Chao Xu, Mengqi Zhang, Zhaoning Wang, Xiaoshuai Zhang, Isabella Liu, Hongzhi Wu, Hao Su
cs.AI

Аннотация

Модели трехмерной реконструкции в открытом мире недавно привлекли значительное внимание. Однако без достаточного трехмерного индуктивного смещения существующие методы обычно требуют дорогостоящих затрат на обучение и испытывают трудности с извлечением трехмерных сеток высокого качества. В данной работе мы представляем MeshFormer, модель реконструкции с разреженным видом, которая явно использует трехмерную структуру, входное руководство и обучающее наблюдение. В частности, вместо использования трехплоскостного представления мы храним признаки в трехмерных разреженных вокселях и объединяем трансформеры с трехмерными свертками для использования явной трехмерной структуры и проективного смещения. Помимо входного разреженного RGB изображения, мы требуем, чтобы сеть принимала входные данные и генерировала соответствующие карты нормалей. Входные карты нормалей могут быть предсказаны с помощью двумерных моделей диффузии, что значительно помогает в руководстве и усовершенствовании обучения геометрии. Более того, объединяя наблюдение за функцией знакового расстояния (SDF) с поверхностным рендерингом, мы напрямую учимся генерировать трехмерные сетки высокого качества без необходимости в сложных многоэтапных процессах обучения. Интегрируя эти явные трехмерные смещения, MeshFormer может быть эффективно обучен и создавать текстурированные сетки высокого качества с деталями геометрии мелкой структуры. Он также может быть интегрирован с двумерными моделями диффузии для выполнения быстрых задач преобразования изображения в трехмерное и текста в трехмерное. Страница проекта: https://meshformer3d.github.io
English
Open-world 3D reconstruction models have recently garnered significant attention. However, without sufficient 3D inductive bias, existing methods typically entail expensive training costs and struggle to extract high-quality 3D meshes. In this work, we introduce MeshFormer, a sparse-view reconstruction model that explicitly leverages 3D native structure, input guidance, and training supervision. Specifically, instead of using a triplane representation, we store features in 3D sparse voxels and combine transformers with 3D convolutions to leverage an explicit 3D structure and projective bias. In addition to sparse-view RGB input, we require the network to take input and generate corresponding normal maps. The input normal maps can be predicted by 2D diffusion models, significantly aiding in the guidance and refinement of the geometry's learning. Moreover, by combining Signed Distance Function (SDF) supervision with surface rendering, we directly learn to generate high-quality meshes without the need for complex multi-stage training processes. By incorporating these explicit 3D biases, MeshFormer can be trained efficiently and deliver high-quality textured meshes with fine-grained geometric details. It can also be integrated with 2D diffusion models to enable fast single-image-to-3D and text-to-3D tasks. Project page: https://meshformer3d.github.io

Summary

AI-Generated Summary

PDF363November 19, 2024