Modèle d'Action Géométrique pour l'Apprentissage de Politiques Robotiques

Résumé

Les politiques robotiques généralistes doivent suivre les instructions des utilisateurs tout en raisonnant sur la manière dont les objets, les caméras et les actions du robot interagissent dans le monde physique en 3D. Les récents modèles vision-langage-action (VLA) et modèles vidéo monde-action (WAM) héritent de fortes connaissances a priori sémantiques ou temporelles issues de modèles de fondation à grande échelle, mais ils opèrent encore principalement sur des images 2D ou des espaces latents dérivés du 2D, laissant implicite la géométrie 3D nécessaire à la manipulation riche en contacts. Nous proposons le modèle d’action géométrique (GAM), une politique de manipulation conditionnée par le langage qui réutilise directement un modèle de fondation géométrique (GFM) pré-entraîné comme substrat partagé pour la perception, la prédiction temporelle et le décodage d’actions. GAM scinde le GFM à une couche intermédiaire : les couches superficielles servent d’encodeur d’observation, tandis qu’un prédicteur causal de futur inséré au niveau de la scission prévoit les jetons latents futurs conditionnés par le langage, la proprioception et l’historique des actions. Les jetons futurs prédits sont ensuite acheminés à travers les blocs restants du GFM pour la propagation et le décodage des caractéristiques, permettant à une unique architecture de base de produire à la fois la géométrie future et les actions. Cette conception dote le GFM d’une modélisation temporelle du monde conditionnée par le langage grâce à une modification architecturale minimale, tout en préservant ses riches connaissances a priori géométriques. Sur un large ensemble de références de manipulation en simulation et sur robot réel, GAM est plus précis, plus robuste, plus rapide et plus léger que les modèles de fondation actuels de référence.

English

Generalist robot policies must follow user instructions while reasoning about how objects, cameras, and robot actions interact in the 3D physical world. Recent vision-language-action models (VLAs) and video world-action models (WAMs) inherit strong semantic or temporal priors from large-scale foundation models, but they still operate primarily on 2D image frames or 2D-derived latent spaces, leaving implicit the 3D geometry required for contact-rich manipulation. We propose the Geometric Action Model (GAM), a language-conditioned manipulation policy that directly repurposes a pretrained geometric foundation model (GFM) as a shared substrate for perception, temporal prediction, and action decoding. GAM splits the GFM at an intermediate layer: the shallow layers serve as an observation encoder, and a causal future predictor inserted at the split layer forecasts future latent tokens conditioned on language, proprioception, and action history. The predicted future tokens are then routed through the remaining GFM blocks for feature propagation and decoding, allowing a single backbone to produce both future geometry and actions. This design equips the GFM with language-conditioned temporal world modeling through minimal architectural modification while preserving its rich geometric priors. Across a broad suite of simulation and real-robot manipulation benchmarks, GAM is more accurate, more robust, faster, and lighter than current foundation-model-scale baselines.