Goulot d'étranglement des tokens : Un token pour mémoriser les dynamiques

papers.abstract

L’extraction de représentations visuelles compactes et temporellement conscientes à partir de scènes dynamiques est essentielle pour la réussite de tâches séquentielles de compréhension de scènes, telles que le suivi visuel et la manipulation robotique. Dans cet article, nous présentons Token Bottleneck (ToBo), un pipeline d’apprentissage auto-supervisé simple mais intuitif qui compresse une scène en un jeton de goulot d’étranglement et prédit la scène suivante en utilisant un nombre minimal de patches comme indices. Le pipeline ToBo facilite l’apprentissage de représentations séquentielles de scènes en encodant de manière conservatrice la scène de référence en un jeton de goulot d’étranglement compact lors de l’étape de compression. Dans l’étape d’expansion, nous guidons le modèle pour capturer les dynamiques temporelles en prédisant la scène cible à l’aide du jeton de goulot d’étranglement ainsi que de quelques patches cibles comme indices. Cette conception encourage le backbone visuel à intégrer des dépendances temporelles, permettant ainsi la compréhension des transitions dynamiques entre les scènes. Des expériences approfondies sur diverses tâches séquentielles, incluant la propagation d’étiquettes vidéo et la manipulation robotique dans des environnements simulés, démontrent la supériorité de ToBo par rapport aux méthodes de référence. De plus, le déploiement de notre modèle pré-entraîné sur des robots physiques confirme sa robustesse et son efficacité dans des environnements réels. Nous validons également la scalabilité de ToBo à différentes échelles de modèles.

English

Deriving compact and temporally aware visual representations from dynamic scenes is essential for successful execution of sequential scene understanding tasks such as visual tracking and robotic manipulation. In this paper, we introduce Token Bottleneck (ToBo), a simple yet intuitive self-supervised learning pipeline that squeezes a scene into a bottleneck token and predicts the subsequent scene using minimal patches as hints. The ToBo pipeline facilitates the learning of sequential scene representations by conservatively encoding the reference scene into a compact bottleneck token during the squeeze step. In the expansion step, we guide the model to capture temporal dynamics by predicting the target scene using the bottleneck token along with few target patches as hints. This design encourages the vision backbone to embed temporal dependencies, thereby enabling understanding of dynamic transitions across scenes. Extensive experiments in diverse sequential tasks, including video label propagation and robot manipulation in simulated environments demonstrate the superiority of ToBo over baselines. Moreover, deploying our pre-trained model on physical robots confirms its robustness and effectiveness in real-world environments. We further validate the scalability of ToBo across different model scales.

Goulot d'étranglement des tokens : Un token pour mémoriser les dynamiques

Token Bottleneck: One Token to Remember Dynamics

papers.abstract

Support