AnyRecon: 3D-реконструкция с произвольного ракурса на основе видео-диффузионной модели

Аннотация

Восстановление трехмерных сцен по разреженным видам играет ключевую роль для моделирования сцен из случайных съемок, но остается сложной задачей для негенеративных методов реконструкции. Существующие подходы на основе диффузионных моделей смягчают эту проблему, синтезируя новые ракурсы, однако они часто используют в качестве условия только один или два кадра съемки, что ограничивает геометрическую согласованность и масштабируемость для больших или разнородных сцен. Мы предлагаем AnyRecon — масштабируемую систему для реконструкции по произвольным и неупорядоченным разреженным данным, которая сохраняет явный геометрический контроль при поддержке гибкой мощности условных данных. Для обеспечения дальнодействующего кондиционирования наш метод создает устойчивую глобальную память сцены с помощью кэша предварительно загруженных ракурсов и устраняет временное сжатие для сохранения покомпонентного соответствия при значительных изменениях точки обзора. Помимо улучшения генеративной модели, мы также выявили, что взаимодействие между генерацией и реконструкцией критически важно для крупномасштабных 3D-сцен. Поэтому мы представляем стратегию геометрически осознанного кондиционирования, которая связывает генерацию и реконструкцию через явную 3D-геометрическую память и геометрически управляемое извлечение референсных ракурсов. Для обеспечения эффективности мы комбинируем 4-шаговую дистилляцию диффузии с разреженной внимательностью в пределах контекстного окна, чтобы снизить квадратичную сложность. Многочисленные эксперименты демонстрируют надежную и масштабируемую реконструкцию для нерегулярных входных данных, больших разрывов в ракурсах и протяженных траекторий.

English

Sparse-view 3D reconstruction is essential for modeling scenes from casual captures, but remain challenging for non-generative reconstruction. Existing diffusion-based approaches mitigates this issues by synthesizing novel views, but they often condition on only one or two capture frames, which restricts geometric consistency and limits scalability to large or diverse scenes. We propose AnyRecon, a scalable framework for reconstruction from arbitrary and unordered sparse inputs that preserves explicit geometric control while supporting flexible conditioning cardinality. To support long-range conditioning, our method constructs a persistent global scene memory via a prepended capture view cache, and removes temporal compression to maintain frame-level correspondence under large viewpoint changes. Beyond better generative model, we also find that the interplay between generation and reconstruction is crucial for large-scale 3D scenes. Thus, we introduce a geometry-aware conditioning strategy that couples generation and reconstruction through an explicit 3D geometric memory and geometry-driven capture-view retrieval. To ensure efficiency, we combine 4-step diffusion distillation with context-window sparse attention to reduce quadratic complexity. Extensive experiments demonstrate robust and scalable reconstruction across irregular inputs, large viewpoint gaps, and long trajectories.

AnyRecon: 3D-реконструкция с произвольного ракурса на основе видео-диффузионной модели

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

Аннотация

Support