AnyRecon: 비디오 확산 모델을 활용한 임의 시점 3D 재구성
AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model
April 21, 2026
저자: Yutian Chen, Shi Guo, Renbiao Jin, Tianshuo Yang, Xin Cai, Yawen Luo, Mingxin Yang, Mulin Yu, Linning Xu, Tianfan Xue
cs.AI
초록
희소 시점 3D 재구성은 캐주얼 캡처로부터 장면을 모델링하는 데 필수적이지만, 비생성적 재구성에서는 여전히 어려운 과제로 남아 있습니다. 기존 확산 기반 접근법은 새로운 시점을 합성하여 이 문제를 완화하지만, 종종 단일 또는 두 개의 캡처 프레임에만 의존하므로 기하학적 일관성이 제한되고 대규모 또는 다양한 장면으로의 확장성이 떨어집니다. 우리는 명시적인 기하학적 제어를 보존하면서 유연한 조건화 개수를 지원하는, 임의적이고 비정렬된 희소 입력으로부터의 재구성을 위한 확장 가능한 프레임워크인 AnyRecon을 제안합니다. 장거리 조건화를 지원하기 위해 우리의 방법은 선행된 캡처 뷰 캐시를 통해 지속적인 전역 장면 메모리를 구성하고, 큰 시점 변화에서도 프레임 수준 대응을 유지하기 위해 시간적 압축을 제거합니다. 더 나은 생성 모델을 넘어, 생성과 재구성 간의 상호작용이 대규모 3D 장면에 중요함을 발견했습니다. 따라서 우리는 명시적인 3D 기하학적 메모리와 기하학 기반 캡처-뷰 검색을 통해 생성과 재구성을 결합하는 기하학 인식 조건화 전략을 도입합니다. 효율성을 보장하기 위해 4단계 확산蒸馏과 컨텍스트-윈도우 희소 주의를 결합하여 2차 복잡도를 줄입니다. 다양한 실험을 통해 불규칙한 입력, 큰 시점 차이, 긴 궤적에 걸쳐 견고하고 확장 가능한 재구성이 가능함을 입증합니다.
English
Sparse-view 3D reconstruction is essential for modeling scenes from casual captures, but remain challenging for non-generative reconstruction. Existing diffusion-based approaches mitigates this issues by synthesizing novel views, but they often condition on only one or two capture frames, which restricts geometric consistency and limits scalability to large or diverse scenes. We propose AnyRecon, a scalable framework for reconstruction from arbitrary and unordered sparse inputs that preserves explicit geometric control while supporting flexible conditioning cardinality. To support long-range conditioning, our method constructs a persistent global scene memory via a prepended capture view cache, and removes temporal compression to maintain frame-level correspondence under large viewpoint changes. Beyond better generative model, we also find that the interplay between generation and reconstruction is crucial for large-scale 3D scenes. Thus, we introduce a geometry-aware conditioning strategy that couples generation and reconstruction through an explicit 3D geometric memory and geometry-driven capture-view retrieval. To ensure efficiency, we combine 4-step diffusion distillation with context-window sparse attention to reduce quadratic complexity. Extensive experiments demonstrate robust and scalable reconstruction across irregular inputs, large viewpoint gaps, and long trajectories.