AnyRecon: Reconstrução 3D de Visão Arbitrária com Modelo de Difusão de Vídeo

Resumo

A reconstrução 3D com poucas vistas é essencial para modelar cenas a partir de capturas casuais, mas continua a ser um desafio para a reconstrução não generativa. As abordagens existentes baseadas em difusão mitigam este problema sintetizando novas vistas, mas geralmente condicionam-se a apenas um ou dois fotogramas de captura, o que restringe a consistência geométrica e limita a escalabilidade para cenas grandes ou diversificadas. Propomos o AnyRecon, uma estrutura escalável para reconstrução a partir de entradas esparsas, arbitrárias e não ordenadas, que preserva o controlo geométrico explícito enquanto suporta uma cardinalidade de condicionamento flexível. Para suportar o condicionamento de longo alcance, o nosso método constrói uma memória de cena global persistente através de uma cache de vistas de captura pré-fixada e remove a compressão temporal para manter a correspondência ao nível do fotograma sob grandes alterações de ponto de vista. Para além de um melhor modelo generativo, também descobrimos que a interação entre geração e reconstrução é crucial para cenas 3D de grande escala. Assim, introduzimos uma estratégia de condicionamento consciente da geometria que acopla a geração e a reconstrução através de uma memória geométrica 3D explícita e uma recuperação de vistas de captura orientada pela geometria. Para garantir eficiência, combinamos a destilação de difusão em 4 etapas com uma atenção esparsa de janela de contexto para reduzir a complexidade quadrática. Experiências extensivas demonstram uma reconstrução robusta e escalável em entradas irregulares, grandes diferenças de ponto de vista e trajetórias longas.

English

Sparse-view 3D reconstruction is essential for modeling scenes from casual captures, but remain challenging for non-generative reconstruction. Existing diffusion-based approaches mitigates this issues by synthesizing novel views, but they often condition on only one or two capture frames, which restricts geometric consistency and limits scalability to large or diverse scenes. We propose AnyRecon, a scalable framework for reconstruction from arbitrary and unordered sparse inputs that preserves explicit geometric control while supporting flexible conditioning cardinality. To support long-range conditioning, our method constructs a persistent global scene memory via a prepended capture view cache, and removes temporal compression to maintain frame-level correspondence under large viewpoint changes. Beyond better generative model, we also find that the interplay between generation and reconstruction is crucial for large-scale 3D scenes. Thus, we introduce a geometry-aware conditioning strategy that couples generation and reconstruction through an explicit 3D geometric memory and geometry-driven capture-view retrieval. To ensure efficiency, we combine 4-step diffusion distillation with context-window sparse attention to reduce quadratic complexity. Extensive experiments demonstrate robust and scalable reconstruction across irregular inputs, large viewpoint gaps, and long trajectories.

AnyRecon: Reconstrução 3D de Visão Arbitrária com Modelo de Difusão de Vídeo

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

Resumo

Support