AnyRecon: Ricostruzione 3D da Visuali Arbitrarie con Modello di Diffusione Video

Abstract

La ricostruzione 3D da viste sparse è essenziale per modellare scene da acquisizioni casuali, ma rimane impegnativa per approcci non generativi. I metodi esistenti basati su diffusione mitigano questo problema sintetizzando nuove viste, ma spesso si condizionano solo su uno o due frame di acquisizione, il che limita la coerenza geometrica e la scalabilità a scene ampie o diversificate. Proponiamo AnyRecon, un framework scalabile per la ricostruzione da input sparsi arbitrari e non ordinati che preserva il controllo geometrico esplicito supportando al contempo una cardinalità di condizionamento flessibile. Per supportare condizionamenti a lungo raggio, il nostro metodo costruisce una memoria di scena globale persistente tramite una cache preposta delle viste di acquisizione ed elimina la compressione temporale per mantenere la corrispondenza a livello di frame sotto ampi cambiamenti di punto di vista. Oltre a un modello generativo migliore, abbiamo riscontrato che l'interazione tra generazione e ricostruzione è cruciale per scene 3D su larga scala. Introduciamo quindi una strategia di condizionamento geometricamente consapevole che accoppia generazione e ricostruzione attraverso una memoria geometrica 3D esplicita e un recupero delle viste di acquisizione guidato dalla geometria. Per garantire l'efficienza, combiniamo la distillazione di diffusione a 4 passi con un'attenzione sparsa a finestra contestuale per ridurre la complessità quadratica. Esperimenti estensivi dimostrano una ricostruzione robusta e scalabile su input irregolari, ampi disallineamenti di viewpoint e traiettorie lunghe.

English

Sparse-view 3D reconstruction is essential for modeling scenes from casual captures, but remain challenging for non-generative reconstruction. Existing diffusion-based approaches mitigates this issues by synthesizing novel views, but they often condition on only one or two capture frames, which restricts geometric consistency and limits scalability to large or diverse scenes. We propose AnyRecon, a scalable framework for reconstruction from arbitrary and unordered sparse inputs that preserves explicit geometric control while supporting flexible conditioning cardinality. To support long-range conditioning, our method constructs a persistent global scene memory via a prepended capture view cache, and removes temporal compression to maintain frame-level correspondence under large viewpoint changes. Beyond better generative model, we also find that the interplay between generation and reconstruction is crucial for large-scale 3D scenes. Thus, we introduce a geometry-aware conditioning strategy that couples generation and reconstruction through an explicit 3D geometric memory and geometry-driven capture-view retrieval. To ensure efficiency, we combine 4-step diffusion distillation with context-window sparse attention to reduce quadratic complexity. Extensive experiments demonstrate robust and scalable reconstruction across irregular inputs, large viewpoint gaps, and long trajectories.

AnyRecon: Ricostruzione 3D da Visuali Arbitrarie con Modello di Diffusione Video

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

Abstract

Support