Token-Engpass: Ein Token zur Erfassung von Dynamiken
Token Bottleneck: One Token to Remember Dynamics
July 9, 2025
papers.authors: Taekyung Kim, Dongyoon Han, Byeongho Heo, Jeongeun Park, Sangdoo Yun
cs.AI
papers.abstract
Die Ableitung kompakter und zeitlich bewusster visueller Repräsentationen aus dynamischen Szenen ist entscheidend für die erfolgreiche Ausführung sequenzieller Szenenverständnisaufgaben wie visuelles Tracking und robotische Manipulation. In diesem Artikel stellen wir Token Bottleneck (ToBo) vor, eine einfache, aber intuitive selbstüberwachte Lernpipeline, die eine Szene in einen Engpass-Token komprimiert und die nachfolgende Szene unter Verwendung minimaler Patches als Hinweise vorhersagt. Die ToBo-Pipeline erleichtert das Lernen sequenzieller Szenendarstellungen, indem sie die Referenzszene während des Kompressionsschritts konservativ in einen kompakten Engpass-Token kodiert. Im Expansionsschritt leiten wir das Modell an, zeitliche Dynamiken zu erfassen, indem es die Zielszene unter Verwendung des Engpass-Tokens zusammen mit wenigen Zielpatches als Hinweise vorhersagt. Dieses Design ermutigt das visuelle Backbone, zeitliche Abhängigkeiten einzubetten und dadurch das Verständnis dynamischer Übergänge zwischen Szenen zu ermöglichen. Umfangreiche Experimente in verschiedenen sequenziellen Aufgaben, einschließlich Video-Label-Propagation und robotischer Manipulation in simulierten Umgebungen, demonstrieren die Überlegenheit von ToBo gegenüber Baseline-Methoden. Darüber hinaus bestätigt der Einsatz unseres vortrainierten Modells auf physischen Robotern dessen Robustheit und Effektivität in realen Umgebungen. Wir validieren weiterhin die Skalierbarkeit von ToBo über verschiedene Modellgrößen hinweg.
English
Deriving compact and temporally aware visual representations from dynamic
scenes is essential for successful execution of sequential scene understanding
tasks such as visual tracking and robotic manipulation. In this paper, we
introduce Token Bottleneck (ToBo), a simple yet intuitive self-supervised
learning pipeline that squeezes a scene into a bottleneck token and predicts
the subsequent scene using minimal patches as hints. The ToBo pipeline
facilitates the learning of sequential scene representations by conservatively
encoding the reference scene into a compact bottleneck token during the squeeze
step. In the expansion step, we guide the model to capture temporal dynamics by
predicting the target scene using the bottleneck token along with few target
patches as hints. This design encourages the vision backbone to embed temporal
dependencies, thereby enabling understanding of dynamic transitions across
scenes. Extensive experiments in diverse sequential tasks, including video
label propagation and robot manipulation in simulated environments demonstrate
the superiority of ToBo over baselines. Moreover, deploying our pre-trained
model on physical robots confirms its robustness and effectiveness in
real-world environments. We further validate the scalability of ToBo across
different model scales.