ChatPaper.aiChatPaper

프리트레인 모델 시대의 자연스러운 희소 뷰 기반 실내 구조 복원

Unposed Sparse Views Room Layout Reconstruction in the Age of Pretrain Model

February 24, 2025
저자: Yaxuan Huang, Xili Dai, Jianan Wang, Xianbiao Qi, Yixing Yuan, Xiangyu Yue
cs.AI

초록

다중 시점 이미지에서의 실내 구조 추정은 다중 시점 기하학에서 발생하는 복잡성으로 인해 잘 연구되지 않았습니다. 이는 카메라 내부 및 외부 파라미터 추정, 이미지 매칭, 삼각측량과 같은 다단계 해결책을 필요로 합니다. 그러나 3D 재구성 분야에서는 DUSt3R과 같은 최근 3D 기반 모델의 발전으로 인해 전통적인 다단계 구조-움직임(SfM) 프로세스에서 종단 간 단일 단계 접근 방식으로 패러다임이 전환되었습니다. 이를 위해 우리는 3D 기반 모델 DUSt3R을 활용한 다중 시점 실내 구조 추정을 위한 새로운 방법인 Plane-DUSt3R을 소개합니다. Plane-DUSt3R은 DUSt3R 프레임워크를 통합하고 실내 구조 데이터셋(Structure3D)에서 미세 조정을 통해 구조적 평면을 추정하도록 목적 함수를 수정합니다. 균일하고 간결한 결과를 생성함으로써, Plane-DUSt3R은 단일 후처리 단계와 2D 검출 결과만으로 실내 구조 추정을 가능하게 합니다. 단일 시점 또는 파노라마 이미지에 의존하는 기존 방법과 달리, Plane-DUSt3R은 다중 시점 이미지를 처리할 수 있는 설정으로 확장되었습니다. 또한, 이 방법은 프로세스를 단순화하고 오류 누적을 줄이는 종단 간 해결책을 제공합니다. 실험 결과는 Plane-DUSt3R이 합성 데이터셋에서 최신 방법을 능가할 뿐만 아니라, 만화와 같은 다양한 이미지 스타일의 실제 데이터에서도 견고하고 효과적임을 보여줍니다. 우리의 코드는 https://github.com/justacar/Plane-DUSt3R에서 확인할 수 있습니다.
English
Room layout estimation from multiple-perspective images is poorly investigated due to the complexities that emerge from multi-view geometry, which requires muti-step solutions such as camera intrinsic and extrinsic estimation, image matching, and triangulation. However, in 3D reconstruction, the advancement of recent 3D foundation models such as DUSt3R has shifted the paradigm from the traditional multi-step structure-from-motion process to an end-to-end single-step approach. To this end, we introduce Plane-DUSt3R, a novel method for multi-view room layout estimation leveraging the 3D foundation model DUSt3R. Plane-DUSt3R incorporates the DUSt3R framework and fine-tunes on a room layout dataset (Structure3D) with a modified objective to estimate structural planes. By generating uniform and parsimonious results, Plane-DUSt3R enables room layout estimation with only a single post-processing step and 2D detection results. Unlike previous methods that rely on single-perspective or panorama image, Plane-DUSt3R extends the setting to handle multiple-perspective images. Moreover, it offers a streamlined, end-to-end solution that simplifies the process and reduces error accumulation. Experimental results demonstrate that Plane-DUSt3R not only outperforms state-of-the-art methods on the synthetic dataset but also proves robust and effective on in the wild data with different image styles such as cartoon.Our code is available at: https://github.com/justacar/Plane-DUSt3R

Summary

AI-Generated Summary

PDF32March 4, 2025