Geometrisches Aktionsmodell für das Policy-Lernen von Robotern

Zusammenfassung

Allgemeine Roboterrichtlinien müssen Benutzeranweisungen befolgen und gleichzeitig über die Interaktionen von Objekten, Kameras und Roboteraktionen in der dreidimensionalen physischen Welt nachdenken. Aktuelle Vision-Language-Action-Modelle (VLAs) und Video-World-Action-Modelle (WAMs) übernehmen starke semantische oder zeitliche A-priori-Wissen aus großen Foundation-Modellen, operieren jedoch weiterhin hauptsächlich auf 2D-Bildern oder aus 2D abgeleiteten latenten Räumen, wodurch die für kontaktreiche Manipulation erforderliche 3D-Geometrie implizit bleibt. Wir schlagen das Geometric Action Model (GAM) vor, eine sprachgesteuerte Manipulationsrichtlinie, die ein vortrainiertes Geometric Foundation Model (GFM) direkt als gemeinsames Substrat für Wahrnehmung, zeitliche Vorhersage und Aktionsdecodierung wiederverwendet. GAM teilt das GFM an einer Zwischenschicht: Die flachen Schichten dienen als Beobachtungsencoder, und ein kausaler Zukunftsvorhersager, der an der Teilungsstelle eingefügt wird, prognostiziert zukünftige latente Tokens basierend auf Sprache, Propriozeption und Aktionshistorie. Die vorhergesagten zukünftigen Tokens werden dann durch die verbleibenden GFM-Blöcke zur Merkmalsausbreitung und Decodierung geleitet, sodass ein einzelnes Rückgrat sowohl zukünftige Geometrie als auch Aktionen erzeugen kann. Dieses Design stattet das GFM mit sprachgesteuerter zeitlicher Weltmodellierung durch minimale architektonische Änderungen aus, während seine reichhaltigen geometrischen A-priori-Wissen erhalten bleiben. In einer breiten Palette von Simulationen und realen Roboter-Manipulations-Benchmarks erweist sich GAM als genauer, robuster, schneller und leichter als aktuelle Baselines im Foundation-Modell-Maßstab.

English

Generalist robot policies must follow user instructions while reasoning about how objects, cameras, and robot actions interact in the 3D physical world. Recent vision-language-action models (VLAs) and video world-action models (WAMs) inherit strong semantic or temporal priors from large-scale foundation models, but they still operate primarily on 2D image frames or 2D-derived latent spaces, leaving implicit the 3D geometry required for contact-rich manipulation. We propose the Geometric Action Model (GAM), a language-conditioned manipulation policy that directly repurposes a pretrained geometric foundation model (GFM) as a shared substrate for perception, temporal prediction, and action decoding. GAM splits the GFM at an intermediate layer: the shallow layers serve as an observation encoder, and a causal future predictor inserted at the split layer forecasts future latent tokens conditioned on language, proprioception, and action history. The predicted future tokens are then routed through the remaining GFM blocks for feature propagation and decoding, allowing a single backbone to produce both future geometry and actions. This design equips the GFM with language-conditioned temporal world modeling through minimal architectural modification while preserving its rich geometric priors. Across a broad suite of simulation and real-robot manipulation benchmarks, GAM is more accurate, more robust, faster, and lighter than current foundation-model-scale baselines.