Modelo de Ação Geométrica para Aprendizado de Políticas Robóticas

Resumo

Políticas de robôs generalistas devem seguir instruções do usuário enquanto raciocinam sobre como objetos, câmeras e ações robóticas interagem no mundo físico tridimensional. Modelos recentes de visão-linguagem-ação (VLAs) e modelos de mundo-vídeo-ação (WAMs) herdam fortes prioridades semânticas ou temporais de modelos fundacionais em larga escala, mas ainda operam principalmente em quadros de imagem 2D ou espaços latentes derivados do 2D, deixando implícita a geometria 3D necessária para manipulação com contato. Propomos o Modelo de Ação Geométrica (GAM), uma política de manipulação condicionada por linguagem que reaproveita diretamente um modelo fundacional geométrico (GFM) pré-treinado como substrato compartilhado para percepção, previsão temporal e decodificação de ações. O GAM divide o GFM em uma camada intermediária: as camadas rasas servem como codificador de observação, e um preditor causal futuro inserido na camada de divisão prevê tokens latentes futuros condicionados à linguagem, propriocepção e histórico de ações. Os tokens futuros previstos são então roteados pelos blocos restantes do GFM para propagação e decodificação de características, permitindo que um único backbone produza tanto geometria futura quanto ações. Esse design equipa o GFM com modelagem temporal de mundo condicionada por linguagem por meio de modificações arquitetônicas mínimas, preservando suas ricas prioridades geométricas. Em um conjunto amplo de benchmarks de simulação e manipulação robótica real, o GAM é mais preciso, mais robusto, mais rápido e mais leve que as linhas de base atuais em escala de modelo fundacional.

English

Generalist robot policies must follow user instructions while reasoning about how objects, cameras, and robot actions interact in the 3D physical world. Recent vision-language-action models (VLAs) and video world-action models (WAMs) inherit strong semantic or temporal priors from large-scale foundation models, but they still operate primarily on 2D image frames or 2D-derived latent spaces, leaving implicit the 3D geometry required for contact-rich manipulation. We propose the Geometric Action Model (GAM), a language-conditioned manipulation policy that directly repurposes a pretrained geometric foundation model (GFM) as a shared substrate for perception, temporal prediction, and action decoding. GAM splits the GFM at an intermediate layer: the shallow layers serve as an observation encoder, and a causal future predictor inserted at the split layer forecasts future latent tokens conditioned on language, proprioception, and action history. The predicted future tokens are then routed through the remaining GFM blocks for feature propagation and decoding, allowing a single backbone to produce both future geometry and actions. This design equips the GFM with language-conditioned temporal world modeling through minimal architectural modification while preserving its rich geometric priors. Across a broad suite of simulation and real-robot manipulation benchmarks, GAM is more accurate, more robust, faster, and lighter than current foundation-model-scale baselines.