AnyRecon: 3D-Rekonstruktion mit beliebiger Ansicht mittels Video-Diffusionsmodell

Zusammenfassung

Sparse-View-3D-Rekonstruktion ist entscheidend für die Modellierung von Szenen aus beiläufigen Aufnahmen, bleibt jedoch für nicht-generative Rekonstruktionsverfahren eine Herausforderung. Bestehende diffusionsbasierte Ansätze mildern dieses Problem durch die Synthese neuartiger Blickwinkel, konditionieren jedoch oft nur auf ein oder zwei Aufnahmebilder, was die geometrische Konsistenz einschränkt und die Skalierbarkeit auf große oder diverse Szenen begrenzt. Wir schlagen AnyRecon vor, einen skalierbaren Rahmen für die Rekonstruktion aus beliebigen und ungeordneten spärlichen Eingaben, der die explizite geometrische Kontrolle bewahrt und gleichzeitig eine flexible Konditionierungskardinalität unterstützt. Um eine weitreichende Konditionierung zu ermöglichen, konstruiert unsere Methode einen persistenten globalen Szenenspeicher über einen vorangestellten Aufnahmebild-Cache und entfernt die temporale Kompression, um die Bild-für-Bild-Korrespondenz bei großen Blickwinkeländerungen aufrechtzuerhalten. Neben einem besseren generativen Modell stellen wir fest, dass das Zusammenspiel zwischen Generierung und Rekonstruktion für großskalige 3D-Szenen entscheidend ist. Daher führen wir eine geometrie-bewusste Konditionierungsstrategie ein, die Generierung und Rekonstruktion durch einen expliziten 3D-geometrischen Speicher und eine geometrie-gesteuerte Aufnahmebild-Wiederauffindung koppelt. Um Effizienz zu gewährleisten, kombinieren wir 4-Schritt-Diffusionsdistillation mit sparsamer Aufmerksamkeit im Kontextfenster, um die quadratische Komplexität zu reduzieren. Umfangreiche Experimente demonstrieren eine robuste und skalierbare Rekonstruktion über unregelmäßige Eingaben, große Blickwinkelunterschiede und lange Trajektorien hinweg.

English

Sparse-view 3D reconstruction is essential for modeling scenes from casual captures, but remain challenging for non-generative reconstruction. Existing diffusion-based approaches mitigates this issues by synthesizing novel views, but they often condition on only one or two capture frames, which restricts geometric consistency and limits scalability to large or diverse scenes. We propose AnyRecon, a scalable framework for reconstruction from arbitrary and unordered sparse inputs that preserves explicit geometric control while supporting flexible conditioning cardinality. To support long-range conditioning, our method constructs a persistent global scene memory via a prepended capture view cache, and removes temporal compression to maintain frame-level correspondence under large viewpoint changes. Beyond better generative model, we also find that the interplay between generation and reconstruction is crucial for large-scale 3D scenes. Thus, we introduce a geometry-aware conditioning strategy that couples generation and reconstruction through an explicit 3D geometric memory and geometry-driven capture-view retrieval. To ensure efficiency, we combine 4-step diffusion distillation with context-window sparse attention to reduce quadratic complexity. Extensive experiments demonstrate robust and scalable reconstruction across irregular inputs, large viewpoint gaps, and long trajectories.

AnyRecon: 3D-Rekonstruktion mit beliebiger Ansicht mittels Video-Diffusionsmodell

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

Zusammenfassung

Support