Comprensione della Scena a Livello di Pixel in un Singolo Token: Gli Stati Visivi Richiedono una Composizione Cosa-Dove

Abstract

Per i robot che operano in ambienti dinamici, l'apprendimento di rappresentazioni visive dello stato a partire da osservazioni video in streaming è essenziale per il processo decisionale sequenziale. Recenti metodi di apprendimento auto-supervisionato hanno dimostrato una forte trasferibilità tra diversi compiti visivi, ma non affrontano esplicitamente cosa una buona rappresentazione visiva dello stato debba codificare. Sosteniamo che gli stati visivi efficaci debbano catturare il "cosa-dove", codificando congiuntamente le identità semantiche degli elementi della scena e le loro posizioni spaziali, consentendo il rilevamento affidabile di dinamiche sottili tra le osservazioni. A tal fine, proponiamo CroBo, un framework per l'apprendimento di rappresentazioni visive dello stato basato su un obiettivo di ricostruzione globale-locale. Dato un'osservazione di riferimento compressa in un token di collo di bottiglia compatto, CroBo impara a ricostruire patch pesantemente mascherate in un ritaglio locale di destinazione a partire da indizi visibili sparsi, utilizzando il token di collo di bottiglia globale come contesto. Questo obiettivo di apprendimento incoraggia il token di collo di bottiglia a codificare una rappresentazione granulare delle entità semantiche dell'intera scena, incluse identità, posizioni spaziali e configurazioni. Di conseguenza, gli stati visivi appresi rivelano come gli elementi della scena si muovono e interagiscono nel tempo, supportando il processo decisionale sequenziale. Valutiamo CroBo su diversi benchmark per l'apprendimento di policy robotiche basate sulla visione, dove raggiunge prestazioni all'avanguardia. Analisi di ricostruzione ed esperimenti sulla "perceptual straightness" mostrano ulteriormente che le rappresentazioni apprese preservano la composizione della scena a livello di pixel e codificano il "cosa-si-muove-dove" tra le osservazioni. Pagina del progetto disponibile all'indirizzo: https://seokminlee-chris.github.io/CroBo-ProjectPage.

English

For robotic agents operating in dynamic environments, learning visual state representations from streaming video observations is essential for sequential decision making. Recent self-supervised learning methods have shown strong transferability across vision tasks, but they do not explicitly address what a good visual state should encode. We argue that effective visual states must capture what-is-where by jointly encoding the semantic identities of scene elements and their spatial locations, enabling reliable detection of subtle dynamics across observations. To this end, we propose CroBo, a visual state representation learning framework based on a global-to-local reconstruction objective. Given a reference observation compressed into a compact bottleneck token, CroBo learns to reconstruct heavily masked patches in a local target crop from sparse visible cues, using the global bottleneck token as context. This learning objective encourages the bottleneck token to encode a fine-grained representation of scene-wide semantic entities, including their identities, spatial locations, and configurations. As a result, the learned visual states reveal how scene elements move and interact over time, supporting sequential decision making. We evaluate CroBo on diverse vision-based robot policy learning benchmarks, where it achieves state-of-the-art performance. Reconstruction analyses and perceptual straightness experiments further show that the learned representations preserve pixel-level scene composition and encode what-moves-where across observations. Project page available at: https://seokminlee-chris.github.io/CroBo-ProjectPage.

Comprensione della Scena a Livello di Pixel in un Singolo Token: Gli Stati Visivi Richiedono una Composizione Cosa-Dove

Pixel-level Scene Understanding in One Token: Visual States Need What-is-Where Composition

Abstract

Support