1초 미만의 정밀 단안 시점 합성
Sharp Monocular View Synthesis in Less Than a Second
December 11, 2025
저자: Lars Mescheder, Wei Dong, Shiwei Li, Xuyang Bai, Marcel Santos, Peiyun Hu, Bruno Lecouat, Mingmin Zhen, Amaël Delaunoy, Tian Fang, Yanghai Tsin, Stephan R. Richter, Vladlen Koltun
cs.AI
초록
본 논문에서는 단일 이미지로부터 사진처럼 사실적인 새로운 시점 합성 방법인 SHARP를 제안한다. 주어진 단일 사진을 통해 SHARP는 해당 장면을 표현하는 3D 가우시안 표현의 매개변수를 회귀한다. 이는 신경망의 단일 순전파 패스만으로 표준 GPU 환경에서 1초 미만에 수행된다. SHARP가 생성한 3D 가우시안 표현은 실시간으로 렌더링되어 인접한 시점에 대한 고해상도 사실적 이미지를 생성할 수 있다. 이 표현은 절대尺度를 가지는 계량적 특성으로, 계량적 카메라 이동을 지원한다. 실험 결과는 SHARP가 데이터셋 간 견고한 제로샷 일반화 성능을 보여줌을 입증한다. 여러 데이터셋에서 기존 최고 모델 대비 LPIPS는 25-34%, DISTS는 21-43% 개선하면서도 합성 시간을 1/1000 수준으로 단축하여 새로운 최첨단 성능을 달성했다. 코드와 가중치는 https://github.com/apple/ml-sharp에서 제공된다.
English
We present SHARP, an approach to photorealistic view synthesis from a single image. Given a single photograph, SHARP regresses the parameters of a 3D Gaussian representation of the depicted scene. This is done in less than a second on a standard GPU via a single feedforward pass through a neural network. The 3D Gaussian representation produced by SHARP can then be rendered in real time, yielding high-resolution photorealistic images for nearby views. The representation is metric, with absolute scale, supporting metric camera movements. Experimental results demonstrate that SHARP delivers robust zero-shot generalization across datasets. It sets a new state of the art on multiple datasets, reducing LPIPS by 25-34% and DISTS by 21-43% versus the best prior model, while lowering the synthesis time by three orders of magnitude. Code and weights are provided at https://github.com/apple/ml-sharp