LoGeR: Reconstrucción Geométrica de Contexto Largo con Memoria Híbrida

Resumen

Los modelos de fundación geométrica de avance (feedforward) logran una reconstrucción sólida en ventanas cortas, pero escalarlos a videos de varios minutos encuentra el cuello de botella de la complejidad cuadrática de la atención o la memoria efectiva limitada en diseños recurrentes. Presentamos LoGeR (Reconstrucción Geométrica de Contexto Largo), una arquitectura novedosa que escala la reconstrucción 3D densa a secuencias extremadamente largas sin post-optimización. LoGeR procesa flujos de video en fragmentos, aprovechando fuertes priores bidireccionales para un razonamiento de alta fidelidad dentro del fragmento. Para gestionar el desafío crítico de la coherencia entre los límites de los fragmentos, proponemos un módulo de memoria híbrido basado en aprendizaje. Este sistema de dos componentes combina una memoria paramétrica de Entrenamiento en Tiempo de Prueba (TTT) para anclar el marco de coordenadas global y prevenir la deriva de escala, junto con un mecanismo no paramétrico de Atención por Ventana Deslizante (SWA) para preservar el contexto sin comprimir y lograr una alineación adyacente de alta precisión. Notablemente, esta arquitectura de memoria permite entrenar a LoGeR en secuencias de 128 fotogramas y que generalice hasta miles de fotogramas durante la inferencia. Evaluado en benchmarks estándar y en un conjunto de datos VBR reutilizado con secuencias de hasta 19k fotogramas, LoGeR supera sustancialmente a los métodos de avance anteriores de última generación—reduciendo el ATE en KITTI en más de un 74%—y logra una reconstrucción robusta y globalmente consistente en horizontes sin precedentes.

English

Feedforward geometric foundation models achieve strong short-window reconstruction, yet scaling them to minutes-long videos is bottlenecked by quadratic attention complexity or limited effective memory in recurrent designs. We present LoGeR (Long-context Geometric Reconstruction), a novel architecture that scales dense 3D reconstruction to extremely long sequences without post-optimization. LoGeR processes video streams in chunks, leveraging strong bidirectional priors for high-fidelity intra-chunk reasoning. To manage the critical challenge of coherence across chunk boundaries, we propose a learning-based hybrid memory module. This dual-component system combines a parametric Test-Time Training (TTT) memory to anchor the global coordinate frame and prevent scale drift, alongside a non-parametric Sliding Window Attention (SWA) mechanism to preserve uncompressed context for high-precision adjacent alignment. Remarkably, this memory architecture enables LoGeR to be trained on sequences of 128 frames, and generalize up to thousands of frames during inference. Evaluated across standard benchmarks and a newly repurposed VBR dataset with sequences of up to 19k frames, LoGeR substantially outperforms prior state-of-the-art feedforward methods--reducing ATE on KITTI by over 74%--and achieves robust, globally consistent reconstruction over unprecedented horizons.

LoGeR: Reconstrucción Geométrica de Contexto Largo con Memoria Híbrida

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

Resumen

Support