Compréhension de Scène au Niveau Pixel en un Seul Token : Les États Visuels Nécessitent une Composition Quoi-Où
Pixel-level Scene Understanding in One Token: Visual States Need What-is-Where Composition
March 14, 2026
Auteurs: Seokmin Lee, Yunghee Lee, Byeonghyun Pak, Byeongju Woo
cs.AI
Résumé
Pour les agents robotiques opérant dans des environnements dynamiques, l'apprentissage de représentations d'état visuelles à partir d'observations vidéo en flux continu est essentiel pour la prise de décision séquentielle. Les méthodes récentes d'apprentissage auto-supervisé ont démontré une forte transférabilité entre les tâches de vision, mais elles n'abordent pas explicitement ce qu'un bon état visuel doit encoder. Nous soutenons que les états visuels efficaces doivent capturer le quoi-et-où en encodant conjointement les identités sémantiques des éléments de la scène et leurs positions spatiales, permettant une détection fiable de dynamiques subtiles entre les observations. À cette fin, nous proposons CroBo, un cadre d'apprentissage de représentation d'état visuel basé sur un objectif de reconstruction du global au local. Étant donnée une observation de référence compressée en un jeton de goulot d'étranglement compact, CroBo apprend à reconstruire des patchs lourdement masqués dans une cible locale recadrée à partir d'indices visibles épars, en utilisant le jeton de goulot d'étranglement global comme contexte. Cet objectif d'apprentissage encourage le jeton de goulot d'étranglement à encoder une représentation fine des entités sémantiques à l'échelle de la scène, incluant leurs identités, leurs positions spatiales et leurs configurations. Par conséquent, les états visuels appris révèlent comment les éléments de la scène se déplacent et interagissent dans le temps, soutenant la prise de décision séquentielle. Nous évaluons CroBo sur divers benchmarks d'apprentissage de politiques robotiques basées sur la vision, où il atteint des performances à l'état de l'art. Des analyses de reconstruction et des expériences de linéarité perceptuelle montrent en outre que les représentations apprises préservent la composition de la scène au niveau pixel et encodent le quoi-bouge-où entre les observations. Page du projet disponible à l'adresse : https://seokminlee-chris.github.io/CroBo-ProjectPage.
English
For robotic agents operating in dynamic environments, learning visual state representations from streaming video observations is essential for sequential decision making. Recent self-supervised learning methods have shown strong transferability across vision tasks, but they do not explicitly address what a good visual state should encode. We argue that effective visual states must capture what-is-where by jointly encoding the semantic identities of scene elements and their spatial locations, enabling reliable detection of subtle dynamics across observations. To this end, we propose CroBo, a visual state representation learning framework based on a global-to-local reconstruction objective. Given a reference observation compressed into a compact bottleneck token, CroBo learns to reconstruct heavily masked patches in a local target crop from sparse visible cues, using the global bottleneck token as context. This learning objective encourages the bottleneck token to encode a fine-grained representation of scene-wide semantic entities, including their identities, spatial locations, and configurations. As a result, the learned visual states reveal how scene elements move and interact over time, supporting sequential decision making. We evaluate CroBo on diverse vision-based robot policy learning benchmarks, where it achieves state-of-the-art performance. Reconstruction analyses and perceptual straightness experiments further show that the learned representations preserve pixel-level scene composition and encode what-moves-where across observations. Project page available at: https://seokminlee-chris.github.io/CroBo-ProjectPage.