Collo di bottiglia dei token: Un token per ricordare le dinamiche
Token Bottleneck: One Token to Remember Dynamics
July 9, 2025
Autori: Taekyung Kim, Dongyoon Han, Byeongho Heo, Jeongeun Park, Sangdoo Yun
cs.AI
Abstract
Derivare rappresentazioni visive compatte e temporalmente consapevoli da scene dinamiche è essenziale per l'esecuzione efficace di compiti di comprensione sequenziale delle scene, come il tracciamento visivo e la manipolazione robotica. In questo articolo, introduciamo Token Bottleneck (ToBo), una pipeline di apprendimento auto-supervisionato semplice ma intuitiva che comprime una scena in un token di collo di bottiglia e predice la scena successiva utilizzando patch minime come suggerimenti. La pipeline ToBo facilita l'apprendimento di rappresentazioni sequenziali delle scene codificando in modo conservativo la scena di riferimento in un token di collo di bottiglia compatto durante la fase di compressione. Nella fase di espansione, guidiamo il modello a catturare le dinamiche temporali predicendo la scena target utilizzando il token di collo di bottiglia insieme a poche patch target come suggerimenti. Questo design incoraggia il backbone visivo a incorporare dipendenze temporali, consentendo così la comprensione delle transizioni dinamiche tra le scene. Esperimenti estesi in vari compiti sequenziali, inclusi la propagazione di etichette video e la manipolazione robotica in ambienti simulati, dimostrano la superiorità di ToBo rispetto ai baseline. Inoltre, il deployment del nostro modello pre-addestrato su robot fisici conferma la sua robustezza ed efficacia in ambienti reali. Validiamo ulteriormente la scalabilità di ToBo su diverse scale di modelli.
English
Deriving compact and temporally aware visual representations from dynamic
scenes is essential for successful execution of sequential scene understanding
tasks such as visual tracking and robotic manipulation. In this paper, we
introduce Token Bottleneck (ToBo), a simple yet intuitive self-supervised
learning pipeline that squeezes a scene into a bottleneck token and predicts
the subsequent scene using minimal patches as hints. The ToBo pipeline
facilitates the learning of sequential scene representations by conservatively
encoding the reference scene into a compact bottleneck token during the squeeze
step. In the expansion step, we guide the model to capture temporal dynamics by
predicting the target scene using the bottleneck token along with few target
patches as hints. This design encourages the vision backbone to embed temporal
dependencies, thereby enabling understanding of dynamic transitions across
scenes. Extensive experiments in diverse sequential tasks, including video
label propagation and robot manipulation in simulated environments demonstrate
the superiority of ToBo over baselines. Moreover, deploying our pre-trained
model on physical robots confirms its robustness and effectiveness in
real-world environments. We further validate the scalability of ToBo across
different model scales.