AnyRecon: Reconstrucción 3D desde Vistas Arbitrarias con un Modelo de Difusión de Video

Resumen

La reconstrucción 3D con vistas escasas es esencial para modelar escenas a partir de capturas casuales, pero sigue siendo un desafío para la reconstrucción no generativa. Los enfoques existentes basados en difusión mitigan este problema sintetizando nuevas vistas, pero a menudo se condicionan únicamente a uno o dos fotogramas de captura, lo que restringe la consistencia geométrica y limita la escalabilidad a escenas grandes o diversas. Proponemos AnyRecon, un marco escalable para la reconstrucción a partir de entradas dispersas, arbitrarias y desordenadas, que preserva el control geométrico explícito mientras admite una cardinalidad de condicionamiento flexible. Para soportar el condicionamiento de largo alcance, nuestro método construye una memoria de escena global persistente mediante una caché de vistas de captura antepuesta, y elimina la compresión temporal para mantener la correspondencia a nivel de fotograma bajo grandes cambios de punto de vista. Más allá de un mejor modelo generativo, también encontramos que la interacción entre generación y reconstrucción es crucial para escenas 3D a gran escala. Por lo tanto, introducimos una estrategia de condicionamiento consciente de la geometría que acopla generación y reconstrucción mediante una memoria geométrica 3D explícita y una recuperación de vistas de captura impulsada por geometría. Para garantizar la eficiencia, combinamos la destilación de difusión en 4 pasos con una atención dispersa de ventana contextual para reducir la complejidad cuadrática. Experimentos exhaustivos demuestran una reconstrucción robusta y escalable con entradas irregulares, grandes brechas de punto de vista y trayectorias largas.

English

Sparse-view 3D reconstruction is essential for modeling scenes from casual captures, but remain challenging for non-generative reconstruction. Existing diffusion-based approaches mitigates this issues by synthesizing novel views, but they often condition on only one or two capture frames, which restricts geometric consistency and limits scalability to large or diverse scenes. We propose AnyRecon, a scalable framework for reconstruction from arbitrary and unordered sparse inputs that preserves explicit geometric control while supporting flexible conditioning cardinality. To support long-range conditioning, our method constructs a persistent global scene memory via a prepended capture view cache, and removes temporal compression to maintain frame-level correspondence under large viewpoint changes. Beyond better generative model, we also find that the interplay between generation and reconstruction is crucial for large-scale 3D scenes. Thus, we introduce a geometry-aware conditioning strategy that couples generation and reconstruction through an explicit 3D geometric memory and geometry-driven capture-view retrieval. To ensure efficiency, we combine 4-step diffusion distillation with context-window sparse attention to reduce quadratic complexity. Extensive experiments demonstrate robust and scalable reconstruction across irregular inputs, large viewpoint gaps, and long trajectories.

AnyRecon: Reconstrucción 3D desde Vistas Arbitrarias con un Modelo de Difusión de Video

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

Resumen

Support