Gargalo de Tokens: Um Token para Memorizar Dinâmicas
Token Bottleneck: One Token to Remember Dynamics
July 9, 2025
Autores: Taekyung Kim, Dongyoon Han, Byeongho Heo, Jeongeun Park, Sangdoo Yun
cs.AI
Resumo
Derivar representações visuais compactas e temporalmente conscientes de cenas dinâmicas é essencial para a execução bem-sucedida de tarefas sequenciais de compreensão de cenas, como rastreamento visual e manipulação robótica. Neste artigo, apresentamos o Token Bottleneck (ToBo), um pipeline de aprendizado auto-supervisionado simples, porém intuitivo, que comprime uma cena em um token de gargalo e prevê a cena subsequente usando patches mínimos como dicas. O pipeline ToBo facilita o aprendizado de representações sequenciais de cenas ao codificar de forma conservadora a cena de referência em um token de gargalo compacto durante a etapa de compressão. Na etapa de expansão, guiamos o modelo para capturar a dinâmica temporal ao prever a cena alvo usando o token de gargalo junto com alguns patches alvo como dicas. Esse design incentiva o backbone de visão a incorporar dependências temporais, permitindo assim a compreensão de transições dinâmicas entre cenas. Experimentos extensos em diversas tarefas sequenciais, incluindo propagação de rótulos em vídeo e manipulação robótica em ambientes simulados, demonstram a superioridade do ToBo em relação às baselines. Além disso, a implantação do nosso modelo pré-treinado em robôs físicos confirma sua robustez e eficácia em ambientes do mundo real. Validamos ainda a escalabilidade do ToBo em diferentes escalas de modelos.
English
Deriving compact and temporally aware visual representations from dynamic
scenes is essential for successful execution of sequential scene understanding
tasks such as visual tracking and robotic manipulation. In this paper, we
introduce Token Bottleneck (ToBo), a simple yet intuitive self-supervised
learning pipeline that squeezes a scene into a bottleneck token and predicts
the subsequent scene using minimal patches as hints. The ToBo pipeline
facilitates the learning of sequential scene representations by conservatively
encoding the reference scene into a compact bottleneck token during the squeeze
step. In the expansion step, we guide the model to capture temporal dynamics by
predicting the target scene using the bottleneck token along with few target
patches as hints. This design encourages the vision backbone to embed temporal
dependencies, thereby enabling understanding of dynamic transitions across
scenes. Extensive experiments in diverse sequential tasks, including video
label propagation and robot manipulation in simulated environments demonstrate
the superiority of ToBo over baselines. Moreover, deploying our pre-trained
model on physical robots confirms its robustness and effectiveness in
real-world environments. We further validate the scalability of ToBo across
different model scales.