Modelo de Acción Geométrica para el Aprendizaje de Políticas Robóticas

Resumen

Las políticas robóticas generalistas deben seguir las instrucciones del usuario mientras razonan sobre cómo los objetos, las cámaras y las acciones del robot interactúan en el mundo físico tridimensional. Los modelos recientes de visión-lenguaje-acción (VLA) y los modelos de video mundo-acción (WAM) heredan fuertes prioridades semánticas o temporales de modelos fundacionales a gran escala, pero aún operan principalmente en fotogramas de imagen 2D o espacios latentes derivados de 2D, dejando implícita la geometría 3D necesaria para la manipulación rica en contacto. Proponemos el Modelo de Acción Geométrica (GAM), una política de manipulación condicionada por lenguaje que reutiliza directamente un modelo fundacional geométrico preentrenado (GFM) como sustrato compartido para percepción, predicción temporal y decodificación de acciones. GAM divide el GFM en una capa intermedia: las capas superficiales actúan como codificador de observaciones, y un predictor causal futuro insertado en la capa de división pronostica tokens latentes futuros condicionados por lenguaje, propiocepción e historial de acciones. Luego, los tokens futuros predichos se enrutan a través de los bloques restantes del GFM para la propagación y decodificación de características, lo que permite que un solo tronco base produzca tanto geometría futura como acciones. Este diseño dota al GFM de modelado temporal del mundo condicionado por lenguaje mediante modificaciones arquitectónicas mínimas, preservando al mismo tiempo sus ricas prioridades geométricas. En un amplio conjunto de puntos de referencia de simulación y manipulación con robots reales, GAM es más preciso, más robusto, más rápido y más ligero que las líneas base actuales a escala de modelo fundacional.

English

Generalist robot policies must follow user instructions while reasoning about how objects, cameras, and robot actions interact in the 3D physical world. Recent vision-language-action models (VLAs) and video world-action models (WAMs) inherit strong semantic or temporal priors from large-scale foundation models, but they still operate primarily on 2D image frames or 2D-derived latent spaces, leaving implicit the 3D geometry required for contact-rich manipulation. We propose the Geometric Action Model (GAM), a language-conditioned manipulation policy that directly repurposes a pretrained geometric foundation model (GFM) as a shared substrate for perception, temporal prediction, and action decoding. GAM splits the GFM at an intermediate layer: the shallow layers serve as an observation encoder, and a causal future predictor inserted at the split layer forecasts future latent tokens conditioned on language, proprioception, and action history. The predicted future tokens are then routed through the remaining GFM blocks for feature propagation and decoding, allowing a single backbone to produce both future geometry and actions. This design equips the GFM with language-conditioned temporal world modeling through minimal architectural modification while preserving its rich geometric priors. Across a broad suite of simulation and real-robot manipulation benchmarks, GAM is more accurate, more robust, faster, and lighter than current foundation-model-scale baselines.