Cuello de Botella de Tokens: Un Token para Recordar Dinámicas

Resumen

Obtener representaciones visuales compactas y conscientes del tiempo a partir de escenas dinámicas es esencial para la ejecución exitosa de tareas secuenciales de comprensión de escenas, como el seguimiento visual y la manipulación robótica. En este artículo, presentamos Token Bottleneck (ToBo), una canalización de aprendizaje autosupervisado simple pero intuitiva que comprime una escena en un token de cuello de botella y predice la escena subsiguiente utilizando parches mínimos como pistas. La canalización ToBo facilita el aprendizaje de representaciones secuenciales de escenas al codificar de manera conservadora la escena de referencia en un token de cuello de botella compacto durante el paso de compresión. En el paso de expansión, guiamos al modelo para capturar dinámicas temporales al predecir la escena objetivo utilizando el token de cuello de botella junto con algunos parches objetivo como pistas. Este diseño fomenta que la arquitectura visual incorpore dependencias temporales, permitiendo así la comprensión de transiciones dinámicas entre escenas. Experimentos exhaustivos en diversas tareas secuenciales, incluyendo la propagación de etiquetas en video y la manipulación robótica en entornos simulados, demuestran la superioridad de ToBo sobre los métodos de referencia. Además, la implementación de nuestro modelo preentrenado en robots físicos confirma su robustez y efectividad en entornos del mundo real. Validamos además la escalabilidad de ToBo en diferentes escalas de modelos.

English

Deriving compact and temporally aware visual representations from dynamic scenes is essential for successful execution of sequential scene understanding tasks such as visual tracking and robotic manipulation. In this paper, we introduce Token Bottleneck (ToBo), a simple yet intuitive self-supervised learning pipeline that squeezes a scene into a bottleneck token and predicts the subsequent scene using minimal patches as hints. The ToBo pipeline facilitates the learning of sequential scene representations by conservatively encoding the reference scene into a compact bottleneck token during the squeeze step. In the expansion step, we guide the model to capture temporal dynamics by predicting the target scene using the bottleneck token along with few target patches as hints. This design encourages the vision backbone to embed temporal dependencies, thereby enabling understanding of dynamic transitions across scenes. Extensive experiments in diverse sequential tasks, including video label propagation and robot manipulation in simulated environments demonstrate the superiority of ToBo over baselines. Moreover, deploying our pre-trained model on physical robots confirms its robustness and effectiveness in real-world environments. We further validate the scalability of ToBo across different model scales.

Cuello de Botella de Tokens: Un Token para Recordar Dinámicas

Token Bottleneck: One Token to Remember Dynamics

Resumen

Support