Compreensão de Cenas em Nível de Pixel em Um Token: Estados Visuais Precisam da Composição O-que-está-onde

Resumo

Para agentes robóticos que operam em ambientes dinâmicos, a aprendizagem de representações visuais de estado a partir de observações de vídeo em fluxo contínuo é essencial para a tomada de decisão sequencial. Métodos recentes de aprendizagem auto-supervisionada têm demonstrado forte capacidade de transferência entre tarefas visuais, mas não abordam explicitamente o que uma boa representação visual de estado deve codificar. Argumentamos que estados visuais eficazes devem capturar o que-está-onde, codificando conjuntamente as identidades semânticas dos elementos da cena e as suas localizações espaciais, permitindo a deteção fiável de dinâmicas subtis entre observações. Para tal, propomos o CroBo, um quadro de aprendizagem de representação de estado visual baseado num objetivo de reconstrução global-para-local. Dada uma observação de referência comprimida num token de estrangulamento compacto, o CroBo aprende a reconstruir *patches* fortemente mascarados num recorte local alvo, a partir de pistas visíveis esparsas, usando o token de estrangulamento global como contexto. Este objetivo de aprendizagem incentiva o token de estrangulamento a codificar uma representação de granularidade fina das entidades semânticas de toda a cena, incluindo as suas identidades, localizações espaciais e configurações. Como resultado, os estados visuais aprendidos revelam como os elementos da cena se movem e interagem ao longo do tempo, suportando a tomada de decisão sequencial. Avaliamos o CroBo em diversos benchmarks de aprendizagem de políticas robóticas baseadas em visão, onde atinge um desempenho de ponta. Análises de reconstrução e experiências de retidão perceptual mostram ainda que as representações aprendidas preservam a composição da cena a nível de píxel e codificam o que-se-move-onde entre observações. Página do projeto disponível em: https://seokminlee-chris.github.io/CroBo-ProjectPage.

English

For robotic agents operating in dynamic environments, learning visual state representations from streaming video observations is essential for sequential decision making. Recent self-supervised learning methods have shown strong transferability across vision tasks, but they do not explicitly address what a good visual state should encode. We argue that effective visual states must capture what-is-where by jointly encoding the semantic identities of scene elements and their spatial locations, enabling reliable detection of subtle dynamics across observations. To this end, we propose CroBo, a visual state representation learning framework based on a global-to-local reconstruction objective. Given a reference observation compressed into a compact bottleneck token, CroBo learns to reconstruct heavily masked patches in a local target crop from sparse visible cues, using the global bottleneck token as context. This learning objective encourages the bottleneck token to encode a fine-grained representation of scene-wide semantic entities, including their identities, spatial locations, and configurations. As a result, the learned visual states reveal how scene elements move and interact over time, supporting sequential decision making. We evaluate CroBo on diverse vision-based robot policy learning benchmarks, where it achieves state-of-the-art performance. Reconstruction analyses and perceptual straightness experiments further show that the learned representations preserve pixel-level scene composition and encode what-moves-where across observations. Project page available at: https://seokminlee-chris.github.io/CroBo-ProjectPage.

Compreensão de Cenas em Nível de Pixel em Um Token: Estados Visuais Precisam da Composição O-que-está-onde

Pixel-level Scene Understanding in One Token: Visual States Need What-is-Where Composition

Resumo

Support