Comprensión de Escenas a Nivel de Píxel en un Solo Token: Los Estados Visuales Necesitan Composición Qué-es-Dónde
Pixel-level Scene Understanding in One Token: Visual States Need What-is-Where Composition
March 14, 2026
Autores: Seokmin Lee, Yunghee Lee, Byeonghyun Pak, Byeongju Woo
cs.AI
Resumen
Para los agentes robóticos que operan en entornos dinámicos, aprender representaciones visuales del estado a partir de observaciones de vídeo en tiempo real es esencial para la toma de decisiones secuenciales. Los métodos recientes de aprendizaje auto-supervisado han demostrado una fuerte transferibilidad entre tareas de visión, pero no abordan explícitamente qué debe codificar un buen estado visual. Sostenemos que los estados visuales efectivos deben capturar el qué-es-dónde codificando conjuntamente las identidades semánticas de los elementos de la escena y sus ubicaciones espaciales, permitiendo la detección fiable de dinámicas sutiles entre observaciones. Con este fin, proponemos CroBo, un marco de aprendizaje de representación de estado visual basado en un objetivo de reconstrucción de global a local. Dada una observación de referencia comprimida en un token de cuello de botella compacto, CroBo aprende a reconstruir parches fuertemente enmascarados en un recorte local objetivo a partir de pistas visibles dispersas, utilizando el token de cuello de botella global como contexto. Este objetivo de aprendizaje incentiva a que el token de cuello de botella codifique una representación detallada de las entidades semánticas de toda la escena, incluyendo sus identidades, ubicaciones espaciales y configuraciones. Como resultado, los estados visuales aprendidos revelan cómo se mueven e interactúan los elementos de la escena a lo largo del tiempo, apoyando la toma de decisiones secuencial. Evaluamos CroBo en diversos puntos de referencia de aprendizaje de políticas robóticas basadas en visión, donde alcanza un rendimiento de vanguardia. Los análisis de reconstrucción y los experimentos de rectitud perceptual muestran además que las representaciones aprendidas preservan la composición de la escena a nivel de píxel y codifican el qué-se-mueve-dónde entre observaciones. Página del proyecto disponible en: https://seokminlee-chris.github.io/CroBo-ProjectPage.
English
For robotic agents operating in dynamic environments, learning visual state representations from streaming video observations is essential for sequential decision making. Recent self-supervised learning methods have shown strong transferability across vision tasks, but they do not explicitly address what a good visual state should encode. We argue that effective visual states must capture what-is-where by jointly encoding the semantic identities of scene elements and their spatial locations, enabling reliable detection of subtle dynamics across observations. To this end, we propose CroBo, a visual state representation learning framework based on a global-to-local reconstruction objective. Given a reference observation compressed into a compact bottleneck token, CroBo learns to reconstruct heavily masked patches in a local target crop from sparse visible cues, using the global bottleneck token as context. This learning objective encourages the bottleneck token to encode a fine-grained representation of scene-wide semantic entities, including their identities, spatial locations, and configurations. As a result, the learned visual states reveal how scene elements move and interact over time, supporting sequential decision making. We evaluate CroBo on diverse vision-based robot policy learning benchmarks, where it achieves state-of-the-art performance. Reconstruction analyses and perceptual straightness experiments further show that the learned representations preserve pixel-level scene composition and encode what-moves-where across observations. Project page available at: https://seokminlee-chris.github.io/CroBo-ProjectPage.