Token Bottleneck: Eén Token om Dynamiek te Onthouden
Token Bottleneck: One Token to Remember Dynamics
July 9, 2025
Auteurs: Taekyung Kim, Dongyoon Han, Byeongho Heo, Jeongeun Park, Sangdoo Yun
cs.AI
Samenvatting
Het afleiden van compacte en temporeel bewuste visuele representaties uit dynamische scènes is essentieel voor het succesvol uitvoeren van sequentiële scènebegriptaken, zoals visueel volgen en robotmanipulatie. In dit artikel introduceren we Token Bottleneck (ToBo), een eenvoudig maar intuïtief zelfsuperviserend leerproces dat een scène samendrukt tot een bottleneck-token en de daaropvolgende scène voorspelt met behulp van minimale patches als hints. Het ToBo-proces vergemakkelijkt het leren van sequentiële scènerrepresentaties door de referentiescène conservatief te coderen in een compact bottleneck-token tijdens de compressiestap. In de expansiestap leiden we het model om temporele dynamiek vast te leggen door de doelscène te voorspellen met behulp van het bottleneck-token samen met enkele doelpatches als hints. Dit ontwerp moedigt het visuele backbone-netwerk aan om temporele afhankelijkheden in te bedden, waardoor het begrip van dynamische overgangen tussen scènes wordt mogelijk gemaakt. Uitgebreide experimenten in diverse sequentiële taken, waaronder videolabelpropagatie en robotmanipulatie in gesimuleerde omgevingen, tonen de superioriteit van ToBo ten opzichte van baseline-methoden. Bovendien bevestigt de implementatie van ons vooraf getrainde model op fysieke robots de robuustheid en effectiviteit ervan in real-world omgevingen. We valideren verder de schaalbaarheid van ToBo over verschillende modelschalen.
English
Deriving compact and temporally aware visual representations from dynamic
scenes is essential for successful execution of sequential scene understanding
tasks such as visual tracking and robotic manipulation. In this paper, we
introduce Token Bottleneck (ToBo), a simple yet intuitive self-supervised
learning pipeline that squeezes a scene into a bottleneck token and predicts
the subsequent scene using minimal patches as hints. The ToBo pipeline
facilitates the learning of sequential scene representations by conservatively
encoding the reference scene into a compact bottleneck token during the squeeze
step. In the expansion step, we guide the model to capture temporal dynamics by
predicting the target scene using the bottleneck token along with few target
patches as hints. This design encourages the vision backbone to embed temporal
dependencies, thereby enabling understanding of dynamic transitions across
scenes. Extensive experiments in diverse sequential tasks, including video
label propagation and robot manipulation in simulated environments demonstrate
the superiority of ToBo over baselines. Moreover, deploying our pre-trained
model on physical robots confirms its robustness and effectiveness in
real-world environments. We further validate the scalability of ToBo across
different model scales.