LoGeR: Reconstrução Geométrica de Longo Contexto com Memória Híbrida

Resumo

Os modelos de fundação geométrica *feedforward* alcançam uma forte reconstrução em janelas curtas, mas a sua escalabilidade para vídeos com minutos de duração é limitada pela complexidade quadrática da atenção ou pela memória efetiva limitada em desenhos recorrentes. Apresentamos o LoGeR (*Long-context Geometric Reconstruction*), uma arquitetura inovadora que escala a reconstrução 3D densa para sequências extremamente longas sem otimização posterior. O LoGeR processa fluxos de vídeo em blocos, aproveitando fortes *priors* bidirecionais para um raciocínio intra-bloco de alta fidelidade. Para gerir o desafio crítico da coerência entre os limites dos blocos, propomos um módulo de memória híbrida baseado em aprendizagem. Este sistema de dois componentes combina uma memória paramétrica de Treino no Momento do Teste (*Test-Time Training - TTT*) para ancorar o sistema de coordenadas global e prevenir a deriva de escala, juntamente com um mecanismo não paramétrico de Atenção por Janela Deslizante (*Sliding Window Attention - SWA*) para preservar o contexto não comprimido para um alinhamento adjacente de alta precisão. Notavelmente, esta arquitetura de memória permite que o LoGeR seja treinado em sequências de 128 quadros e generalize para milhares de quadros durante a inferência. Avaliado em *benchmarks* padrão e num novo conjunto de dados VBR reutilizado com sequências de até 19 mil quadros, o LoGeR supera substancialmente os melhores métodos *feedforward* anteriores – reduzindo o ATE no KITTI em mais de 74% – e alcança uma reconstrução robusta e globalmente consistente em horizontes sem precedentes.

English

Feedforward geometric foundation models achieve strong short-window reconstruction, yet scaling them to minutes-long videos is bottlenecked by quadratic attention complexity or limited effective memory in recurrent designs. We present LoGeR (Long-context Geometric Reconstruction), a novel architecture that scales dense 3D reconstruction to extremely long sequences without post-optimization. LoGeR processes video streams in chunks, leveraging strong bidirectional priors for high-fidelity intra-chunk reasoning. To manage the critical challenge of coherence across chunk boundaries, we propose a learning-based hybrid memory module. This dual-component system combines a parametric Test-Time Training (TTT) memory to anchor the global coordinate frame and prevent scale drift, alongside a non-parametric Sliding Window Attention (SWA) mechanism to preserve uncompressed context for high-precision adjacent alignment. Remarkably, this memory architecture enables LoGeR to be trained on sequences of 128 frames, and generalize up to thousands of frames during inference. Evaluated across standard benchmarks and a newly repurposed VBR dataset with sequences of up to 19k frames, LoGeR substantially outperforms prior state-of-the-art feedforward methods--reducing ATE on KITTI by over 74%--and achieves robust, globally consistent reconstruction over unprecedented horizons.

LoGeR: Reconstrução Geométrica de Longo Contexto com Memória Híbrida

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

Resumo

Support