AnyRecon : Reconstruction 3D à vue arbitraire avec un modèle de diffusion vidéo

Résumé

La reconstruction 3D à partir de vues éparses est essentielle pour modéliser des scènes à partir de captures occasionnelles, mais reste difficile pour les approches non génératives. Les méthodes existantes basées sur la diffusion atténuent ce problème en synthétisant de nouvelles vues, mais elles se conditionnent souvent sur une ou deux images seulement, ce qui limite la cohérence géométrique et l'adaptabilité aux scènes étendues ou variées. Nous proposons AnyRecon, un cadre évolutif pour la reconstruction à partir d'entrées éparses, arbitraires et non ordonnées, qui préserve un contrôle géométrique explicite tout en supportant une cardinalité de conditionnement flexible. Pour permettre un conditionnement à longue portée, notre méthode construit une mémoire scénique globale persistante via un cache de vues capturées préchargé, et supprime la compression temporelle pour maintenir la correspondance au niveau des images sous de grands changements de viewpoint. Au-delà d'un meilleur modèle génératif, nous montrons que l'interaction entre génération et reconstruction est cruciale pour les scènes 3D à grande échelle. Ainsi, nous introduisons une stratégie de conditionnement géométriquement consciente qui couple génération et reconstruction via une mémoire géométrique 3D explicite et une récupération des vues capturées pilotée par la géométrie. Pour garantir l'efficacité, nous combinons la distillation de diffusion en 4 étapes avec une attention éparse à fenêtre contextuelle pour réduire la complexité quadratique. Des expériences approfondies démontrent une reconstruction robuste et évolutive avec des entrées irrégulières, de grands écarts de viewpoint et de longues trajectoires.

English

Sparse-view 3D reconstruction is essential for modeling scenes from casual captures, but remain challenging for non-generative reconstruction. Existing diffusion-based approaches mitigates this issues by synthesizing novel views, but they often condition on only one or two capture frames, which restricts geometric consistency and limits scalability to large or diverse scenes. We propose AnyRecon, a scalable framework for reconstruction from arbitrary and unordered sparse inputs that preserves explicit geometric control while supporting flexible conditioning cardinality. To support long-range conditioning, our method constructs a persistent global scene memory via a prepended capture view cache, and removes temporal compression to maintain frame-level correspondence under large viewpoint changes. Beyond better generative model, we also find that the interplay between generation and reconstruction is crucial for large-scale 3D scenes. Thus, we introduce a geometry-aware conditioning strategy that couples generation and reconstruction through an explicit 3D geometric memory and geometry-driven capture-view retrieval. To ensure efficiency, we combine 4-step diffusion distillation with context-window sparse attention to reduce quadratic complexity. Extensive experiments demonstrate robust and scalable reconstruction across irregular inputs, large viewpoint gaps, and long trajectories.

AnyRecon : Reconstruction 3D à vue arbitraire avec un modèle de diffusion vidéo

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

Résumé

Support