TTT3R: 3D-реконструкция как обучение на этапе тестирования
TTT3R: 3D Reconstruction as Test-Time Training
September 30, 2025
Авторы: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen
cs.AI
Аннотация
Современные рекуррентные нейронные сети стали конкурентоспособной архитектурой для 3D-реконструкции благодаря их линейной временной сложности. Однако их производительность значительно ухудшается при применении за пределами длины обучающего контекста, что свидетельствует об ограниченной обобщающей способности по длине. В данной работе мы пересматриваем базовые модели 3D-реконструкции с точки зрения обучения на этапе тестирования, формулируя их проектирование как задачу онлайн-обучения. Основываясь на этом подходе, мы используем уверенность в согласованности между состоянием памяти и поступающими наблюдениями для вывода замкнутой формы скорости обучения для обновления памяти, чтобы сбалансировать сохранение исторической информации и адаптацию к новым наблюдениям. Это вмешательство, не требующее обучения и названное TTT3R, существенно улучшает обобщающую способность по длине, достигая двукратного улучшения в оценке глобальной позы по сравнению с базовыми методами, при этом работая со скоростью 20 кадров в секунду и используя всего 6 ГБ видеопамяти для обработки тысяч изображений. Код доступен по адресу: https://rover-xingyu.github.io/TTT3R.
English
Modern Recurrent Neural Networks have become a competitive architecture for
3D reconstruction due to their linear-time complexity. However, their
performance degrades significantly when applied beyond the training context
length, revealing limited length generalization. In this work, we revisit the
3D reconstruction foundation models from a Test-Time Training perspective,
framing their designs as an online learning problem. Building on this
perspective, we leverage the alignment confidence between the memory state and
incoming observations to derive a closed-form learning rate for memory updates,
to balance between retaining historical information and adapting to new
observations. This training-free intervention, termed TTT3R, substantially
improves length generalization, achieving a 2times improvement in global
pose estimation over baselines, while operating at 20 FPS with just 6 GB of GPU
memory to process thousands of images. Code available in
https://rover-xingyu.github.io/TTT3R