GTR: 기하학적 및 텍스처 개선을 통한 대규모 3D 재구성 모델 향상
GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement
June 9, 2024
저자: Peiye Zhuang, Songfang Han, Chaoyang Wang, Aliaksandr Siarohin, Jiaxu Zou, Michael Vasilkovsky, Vladislav Shakhrai, Sergey Korolev, Sergey Tulyakov, Hsin-Ying Lee
cs.AI
초록
우리는 다중 뷰 이미지로부터 3D 메쉬 재구성을 위한 새로운 접근 방식을 제안합니다. 우리의 방법은 트랜스포머 기반의 트라이플레인 생성기와 다중 뷰 이미지로 훈련된 신경 방사 필드(NeRF) 모델을 사용하는 LRM과 같은 대규모 재구성 모델에서 영감을 받았습니다. 그러나 우리의 방법에서는 3D 재구성 품질을 크게 향상시킬 수 있는 몇 가지 중요한 수정 사항을 도입했습니다. 먼저, 원래의 LRM 아키텍처를 검토하여 몇 가지 단점을 발견했습니다. 이후, LRM 아키텍처에 각각의 수정 사항을 도입하여 다중 뷰 이미지 표현을 개선하고 더 계산 효율적인 훈련을 가능하게 했습니다. 둘째, 형상 재구성을 개선하고 전체 이미지 해상도에서의 감독을 가능하게 하기 위해, NeRF 필드에서 미분 가능한 방식으로 메쉬를 추출하고 메쉬 렌더링을 통해 NeRF 모델을 미세 조정했습니다. 이러한 수정 사항들은 Google Scanned Objects (GSO) 데이터셋에서 28.67의 PSNR과 같은 2D 및 3D 평가 지표에서 최첨단 성능을 달성할 수 있게 했습니다. 이러한 우수한 결과에도 불구하고, 우리의 순방향 모델은 여전히 텍스트 및 초상화와 같은 복잡한 텍스처를 재구성하는 데 어려움을 겪습니다. 이를 해결하기 위해, 경량화된 인스턴스별 텍스처 정제 절차를 도입했습니다. 이 절차는 입력 다중 뷰 이미지를 사용하여 메쉬 표면에서 트라이플레인 표현과 NeRF 색상 추정 모델을 단 4초 만에 미세 조정합니다. 이 정제 작업은 PSNR을 29.79로 향상시키고 텍스트와 같은 복잡한 텍스처의 충실한 재구성을 달성합니다. 또한, 우리의 접근 방식은 텍스트 또는 이미지에서 3D 생성과 같은 다양한 다운스트림 애플리케이션을 가능하게 합니다.
English
We propose a novel approach for 3D mesh reconstruction from multi-view
images. Our method takes inspiration from large reconstruction models like LRM
that use a transformer-based triplane generator and a Neural Radiance Field
(NeRF) model trained on multi-view images. However, in our method, we introduce
several important modifications that allow us to significantly enhance 3D
reconstruction quality. First of all, we examine the original LRM architecture
and find several shortcomings. Subsequently, we introduce respective
modifications to the LRM architecture, which lead to improved multi-view image
representation and more computationally efficient training. Second, in order to
improve geometry reconstruction and enable supervision at full image
resolution, we extract meshes from the NeRF field in a differentiable manner
and fine-tune the NeRF model through mesh rendering. These modifications allow
us to achieve state-of-the-art performance on both 2D and 3D evaluation
metrics, such as a PSNR of 28.67 on Google Scanned Objects (GSO) dataset.
Despite these superior results, our feed-forward model still struggles to
reconstruct complex textures, such as text and portraits on assets. To address
this, we introduce a lightweight per-instance texture refinement procedure.
This procedure fine-tunes the triplane representation and the NeRF color
estimation model on the mesh surface using the input multi-view images in just
4 seconds. This refinement improves the PSNR to 29.79 and achieves faithful
reconstruction of complex textures, such as text. Additionally, our approach
enables various downstream applications, including text- or image-to-3D
generation.Summary
AI-Generated Summary