Geometrisch actiemodel voor robotbeleidsleren

Samenvatting

Algemene robotstrategieën moeten gebruikersinstructies volgen, terwijl ze redeneren over hoe objecten, camera's en robotacties interageren in de 3D-fysieke wereld. Recente visie-taal-actiemodellen (VTA's) en video-wereld-actiemodellen (WAM's) erven sterke semantische of temporele voorkennis van grootschalige fundamentmodellen, maar opereren nog steeds primair op 2D-beeldframes of van 2D afgeleide latente ruimten, waardoor de voor contactrijke manipulatie vereiste 3D-geometrie impliciet blijft. Wij stellen het Geometrisch Actiemodel (GAM) voor, een taalgestuurde manipulatiestrategie die een voorgetraind geometrisch fundamentmodel (GFM) direct herbestemt als een gedeeld substraat voor perceptie, temporele predictie en actiedecodering. GAM splitst het GFM op een tussenliggende laag: de ondiepe lagen dienen als een observatie-encoder, en een causale toekomstvoorspeller ingevoegd op de splitsingslaag voorspelt toekomstige latente tokens, geconditioneerd door taal, proprioceptie en actiegeschiedenis. De voorspelde toekomstige tokens worden vervolgens door de resterende GFM-blokken geleid voor kenmerkpropagatie en decodering, waardoor één enkele backbone zowel toekomstige geometrie als acties kan produceren. Dit ontwerp voorziet het GFM van taalgestuurd temporeel wereldmodelleren met minimale architecturale aanpassing, terwijl de rijke geometrische voorkennis behouden blijft. Over een breed scala aan simulatie- en echte robotmanipulatiebenchmarks is GAM nauwkeuriger, robuuster, sneller en lichter dan huidige op fundamentmodelschaal gebaseerde basislijnen.

English

Generalist robot policies must follow user instructions while reasoning about how objects, cameras, and robot actions interact in the 3D physical world. Recent vision-language-action models (VLAs) and video world-action models (WAMs) inherit strong semantic or temporal priors from large-scale foundation models, but they still operate primarily on 2D image frames or 2D-derived latent spaces, leaving implicit the 3D geometry required for contact-rich manipulation. We propose the Geometric Action Model (GAM), a language-conditioned manipulation policy that directly repurposes a pretrained geometric foundation model (GFM) as a shared substrate for perception, temporal prediction, and action decoding. GAM splits the GFM at an intermediate layer: the shallow layers serve as an observation encoder, and a causal future predictor inserted at the split layer forecasts future latent tokens conditioned on language, proprioception, and action history. The predicted future tokens are then routed through the remaining GFM blocks for feature propagation and decoding, allowing a single backbone to produce both future geometry and actions. This design equips the GFM with language-conditioned temporal world modeling through minimal architectural modification while preserving its rich geometric priors. Across a broad suite of simulation and real-robot manipulation benchmarks, GAM is more accurate, more robust, faster, and lighter than current foundation-model-scale baselines.