AnyRecon: Willekeurig Perspectief 3D-reconstructie met Videodiffusiemodel

Samenvatting

Sparse-view 3D-reconstructie is essentieel voor het modelleren van scènes uit casual opnames, maar blijft een uitdaging voor niet-generatieve reconstructie. Bestaande op diffusie gebaseerde benaderingen verlichten deze problemen door het synthetiseren van nieuwe viewpoints, maar zij conditioneren vaak op slechts één of twee opnameframes, wat de geometrische consistentie beperkt en de schaalbaarheid naar grote of diverse scènes hindert. Wij stellen AnyRecon voor, een schaalbaar raamwerk voor reconstructie vanuit willekeurige en ongeordende sparse inputs, dat expliciete geometrische controle behoudt terwijl het flexibele conditioneringscardinaliteit ondersteunt. Om conditionering over lange afstand te ondersteunen, construeert onze methode een persistent globaal scènegeheugen via een vooraf toegevoegde cache voor opnameviews, en verwijdert het temporele compressie om frame-level correspondentie onder grote viewpointveranderingen te behouden. Naast een beter generatief model, vinden wij ook dat de wisselwerking tussen generatie en reconstructie cruciaal is voor grootschalige 3D-scènes. Daarom introduceren wij een geometriebewuste conditioneringsstrategie die generatie en reconstructie koppelt via een expliciet 3D-geometrisch geheugen en geometriegestuurde opname-view retrieval. Om efficiëntie te waarborgen, combineren wij 4-staps diffusiedistillatie met contextvenster sparse attention om de kwadratische complexiteit te reduceren. Uitgebreide experimenten demonstreren robuuste en schaalbare reconstructie over onregelmatige inputs, grote viewpointverschillen en lange trajecten.

English

Sparse-view 3D reconstruction is essential for modeling scenes from casual captures, but remain challenging for non-generative reconstruction. Existing diffusion-based approaches mitigates this issues by synthesizing novel views, but they often condition on only one or two capture frames, which restricts geometric consistency and limits scalability to large or diverse scenes. We propose AnyRecon, a scalable framework for reconstruction from arbitrary and unordered sparse inputs that preserves explicit geometric control while supporting flexible conditioning cardinality. To support long-range conditioning, our method constructs a persistent global scene memory via a prepended capture view cache, and removes temporal compression to maintain frame-level correspondence under large viewpoint changes. Beyond better generative model, we also find that the interplay between generation and reconstruction is crucial for large-scale 3D scenes. Thus, we introduce a geometry-aware conditioning strategy that couples generation and reconstruction through an explicit 3D geometric memory and geometry-driven capture-view retrieval. To ensure efficiency, we combine 4-step diffusion distillation with context-window sparse attention to reduce quadratic complexity. Extensive experiments demonstrate robust and scalable reconstruction across irregular inputs, large viewpoint gaps, and long trajectories.

AnyRecon: Willekeurig Perspectief 3D-reconstructie met Videodiffusiemodel

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

Samenvatting

Support