Узкое место токенов: Один токен для запоминания динамики
Token Bottleneck: One Token to Remember Dynamics
July 9, 2025
Авторы: Taekyung Kim, Dongyoon Han, Byeongho Heo, Jeongeun Park, Sangdoo Yun
cs.AI
Аннотация
Получение компактных и временно-осознанных визуальных представлений из динамических сцен является ключевым для успешного выполнения задач последовательного понимания сцен, таких как визуальное отслеживание и роботизированное манипулирование. В данной работе мы представляем Token Bottleneck (ToBo) — простой, но интуитивно понятный конвейер самообучения, который сжимает сцену в токен узкого места и предсказывает последующую сцену, используя минимальное количество патчей в качестве подсказок. Конвейер ToBo способствует изучению последовательных представлений сцен, консервативно кодируя эталонную сцену в компактный токен узкого места на этапе сжатия. На этапе расширения мы направляем модель на захват временной динамики, предсказывая целевую сцену с использованием токена узкого места вместе с несколькими целевыми патчами в качестве подсказок. Такая конструкция побуждает визуальную основу модели встраивать временные зависимости, что позволяет понимать динамические переходы между сценами. Многочисленные эксперименты в различных последовательных задачах, включая распространение меток в видео и манипуляции роботов в симулированных средах, демонстрируют превосходство ToBo над базовыми методами. Более того, развертывание нашей предварительно обученной модели на физических роботах подтверждает её устойчивость и эффективность в реальных условиях. Мы также подтверждаем масштабируемость ToBo для различных масштабов моделей.
English
Deriving compact and temporally aware visual representations from dynamic
scenes is essential for successful execution of sequential scene understanding
tasks such as visual tracking and robotic manipulation. In this paper, we
introduce Token Bottleneck (ToBo), a simple yet intuitive self-supervised
learning pipeline that squeezes a scene into a bottleneck token and predicts
the subsequent scene using minimal patches as hints. The ToBo pipeline
facilitates the learning of sequential scene representations by conservatively
encoding the reference scene into a compact bottleneck token during the squeeze
step. In the expansion step, we guide the model to capture temporal dynamics by
predicting the target scene using the bottleneck token along with few target
patches as hints. This design encourages the vision backbone to embed temporal
dependencies, thereby enabling understanding of dynamic transitions across
scenes. Extensive experiments in diverse sequential tasks, including video
label propagation and robot manipulation in simulated environments demonstrate
the superiority of ToBo over baselines. Moreover, deploying our pre-trained
model on physical robots confirms its robustness and effectiveness in
real-world environments. We further validate the scalability of ToBo across
different model scales.