PixARMesh: 자기회귀적 메시 기반 단일 뷰 장면 재구성
PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction
March 6, 2026
저자: Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu
cs.AI
초록
PixARMesh는 단일 RGB 이미지로부터 완전한 3D 실내 장면 메시를 직접 자동회귀적으로 복원하는 방법을 소개합니다. 암시적 부호 거리 필드와 사후 레이아웃 최적화에 의존하는 기존 방법과 달리, PixARMesh는 객체 레이아웃과 기하구조를 통합 모델 내에서 공동으로 예측하여 일관성 있고 아티스트 작업 준비가 완료된 메시를 단일 정방향 전달로 생성합니다. 최근 메시 생성 모델의 발전을 바탕으로, 픽셀 정렬 이미지 특징과 교차 주의를 통한 전역 장면 문맥을 점군 인코더에 추가하여 단일 이미지로부터 정확한 공간 추론을 가능하게 합니다. 장면은 문맥, 자세, 메시를 포함하는 통합 토큰 스트림으로부터 자동회귀적으로 생성되어 높은 충실도의 기하구조를 가진 경량 메시를 산출합니다. 합성 및 실제 데이터셋에 대한 실험 결과, PixARMesh는 다운스트림 애플리케이션에 바로 사용 가능한 경량 고품질 메시를 생성하면서도 최첨단 복원 품질을 달성함을 보여줍니다.
English
We introduce PixARMesh, a method to autoregressively reconstruct complete 3D indoor scene meshes directly from a single RGB image. Unlike prior methods that rely on implicit signed distance fields and post-hoc layout optimization, PixARMesh jointly predicts object layout and geometry within a unified model, producing coherent and artist-ready meshes in a single forward pass. Building on recent advances in mesh generative models, we augment a point-cloud encoder with pixel-aligned image features and global scene context via cross-attention, enabling accurate spatial reasoning from a single image. Scenes are generated autoregressively from a unified token stream containing context, pose, and mesh, yielding compact meshes with high-fidelity geometry. Experiments on synthetic and real-world datasets show that PixARMesh achieves state-of-the-art reconstruction quality while producing lightweight, high-quality meshes ready for downstream applications.