AnySplat: 제약 없는 시점에서의 피드포워드 3D 가우시안 스플래팅
AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views
May 29, 2025
저자: Lihan Jiang, Yucheng Mao, Linning Xu, Tao Lu, Kerui Ren, Yichen Jin, Xudong Xu, Mulin Yu, Jiangmiao Pang, Feng Zhao, Dahua Lin, Bo Dai
cs.AI
초록
우리는 보정되지 않은 이미지 컬렉션으로부터 새로운 시점 합성을 위한 피드포워드 네트워크인 AnySplat을 소개합니다. 기존의 신경 렌더링 파이프라인이 알려진 카메라 포즈와 장면별 최적화를 요구하거나, 최근의 피드포워드 방법이 밀집한 뷰의 계산 부하에 취약한 반면, 우리의 모델은 모든 것을 한 번에 예측합니다. 단일 순전파 과정으로 장면의 기하학적 구조와 외관을 모두 인코딩한 3D 가우시안 프리미티브 세트와 각 입력 이미지에 해당하는 카메라 내부 및 외부 파라미터를 생성합니다. 이 통합된 설계는 포즈 주석 없이 캐주얼하게 캡처된 다중 뷰 데이터셋에 쉽게 확장됩니다. 광범위한 제로샷 평가에서 AnySplat은 희소 및 밀집 뷰 시나리오 모두에서 포즈 인식 베이스라인의 품질을 맞추면서 기존의 포즈 없는 접근법을 능가합니다. 더욱이, 최적화 기반 신경 필드에 비해 렌더링 지연 시간을 크게 줄여 제약 없는 캡처 설정에서 실시간 새로운 시점 합성을 가능하게 합니다. 프로젝트 페이지: https://city-super.github.io/anysplat/
English
We introduce AnySplat, a feed forward network for novel view synthesis from
uncalibrated image collections. In contrast to traditional neural rendering
pipelines that demand known camera poses and per scene optimization, or recent
feed forward methods that buckle under the computational weight of dense views,
our model predicts everything in one shot. A single forward pass yields a set
of 3D Gaussian primitives encoding both scene geometry and appearance, and the
corresponding camera intrinsics and extrinsics for each input image. This
unified design scales effortlessly to casually captured, multi view datasets
without any pose annotations. In extensive zero shot evaluations, AnySplat
matches the quality of pose aware baselines in both sparse and dense view
scenarios while surpassing existing pose free approaches. Moreover, it greatly
reduce rendering latency compared to optimization based neural fields, bringing
real time novel view synthesis within reach for unconstrained capture
settings.Project page: https://city-super.github.io/anysplat/