LoGeR: Долгоконтекстное геометрическое восстановление с гибридной памятью

Аннотация

Прямоточные геометрические фундаментальные модели демонстрируют высокую точность реконструкции на коротких временных интервалах, однако их масштабирование для минутных видео ограничивается квадратичной сложностью механизма внимания или ограниченной эффективной памятью в рекуррентных архитектурах. Мы представляем LoGeR (Long-context Geometric Reconstruction) — новую архитектуру, которая масштабирует плотную 3D-реконструкцию на экстремально длинные последовательности без последующей оптимизации. LoGeR обрабатывает видеопотоки фрагментами, используя сильные двунаправленные априорные предположения для высокоточной реконструкции внутри фрагмента. Для решения ключевой задачи обеспечения согласованности на границах фрагментов мы предлагаем гибридный модуль памяти на основе обучения. Эта двухкомпонентная система сочетает параметрическую память с обучением во время тестирования (Test-Time Training, TTT) для закрепления глобальной системы координат и предотвращения дрейфа масштаба, а также непараметрический механизм скользящего внимания (Sliding Window Attention, SWA) для сохранения несжатого контекста, обеспечивающего высокоточное выравнивание смежных участков. Примечательно, что данная архитектура памяти позволяет обучать LoGeR на последовательностях из 128 кадров с последующим обобщением на тысячи кадров на этапе вывода. По результатам оценки на стандартных бенчмарках и заново адаптированном наборе данных VBR с последовательностями длиной до 19 тыс. кадров, LoGeR существенно превосходит предыдущие передовые прямоточные методы — сокращая ATE на KITTI более чем на 74% — и обеспечивает робастную, глобально согласованную реконструкцию на беспрецедентно больших временных горизонтах.

English

Feedforward geometric foundation models achieve strong short-window reconstruction, yet scaling them to minutes-long videos is bottlenecked by quadratic attention complexity or limited effective memory in recurrent designs. We present LoGeR (Long-context Geometric Reconstruction), a novel architecture that scales dense 3D reconstruction to extremely long sequences without post-optimization. LoGeR processes video streams in chunks, leveraging strong bidirectional priors for high-fidelity intra-chunk reasoning. To manage the critical challenge of coherence across chunk boundaries, we propose a learning-based hybrid memory module. This dual-component system combines a parametric Test-Time Training (TTT) memory to anchor the global coordinate frame and prevent scale drift, alongside a non-parametric Sliding Window Attention (SWA) mechanism to preserve uncompressed context for high-precision adjacent alignment. Remarkably, this memory architecture enables LoGeR to be trained on sequences of 128 frames, and generalize up to thousands of frames during inference. Evaluated across standard benchmarks and a newly repurposed VBR dataset with sequences of up to 19k frames, LoGeR substantially outperforms prior state-of-the-art feedforward methods--reducing ATE on KITTI by over 74%--and achieves robust, globally consistent reconstruction over unprecedented horizons.

LoGeR: Долгоконтекстное геометрическое восстановление с гибридной памятью

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

Аннотация

Support