Геометрическая модель действий для обучения политике робота

Аннотация

Общие политики роботов должны следовать инструкциям пользователя, рассуждая о том, как объекты, камеры и действия робота взаимодействуют в трёхмерном физическом мире. Современные модели «видение-язык-действие» (VLA) и видеомодели «мир-действие» (WAM) наследуют сильные семантические или временные априорные знания от крупномасштабных фундаментальных моделей, но по-прежнему работают преимущественно с двумерными кадрами или латентными пространствами, полученными из 2D, оставляя неявной трёхмерную геометрию, необходимую для манипуляций, требующих контакта. Мы предлагаем модель геометрических действий (GAM) — обусловленную языком политику манипуляций, которая напрямую использует предобученную фундаментальную геометрическую модель (GFM) в качестве общей основы для восприятия, временного предсказания и декодирования действий. GAM разделяет GFM на промежуточном слое: мелкие слои служат кодировщиком наблюдений, а вставленный на месте разделения каузальный предсказатель будущего прогнозирует будущие латентные токены, обусловленные языком, проприоцепцией и историей действий. Затем предсказанные будущие токены передаются через оставшиеся блоки GFM для распространения признаков и декодирования, что позволяет единому бэкбону генерировать как будущую геометрию, так и действия. Такая конструкция наделяет GFM обусловленным языком временным моделированием мира при минимальных архитектурных модификациях, сохраняя при этом богатые геометрические априорные знания. В широком наборе экспериментов по манипуляциям в симуляции и на реальных роботах GAM превосходит современные базовые модели масштаба фундаментальных моделей по точности, устойчивости, скорости и лёгкости.

English

Generalist robot policies must follow user instructions while reasoning about how objects, cameras, and robot actions interact in the 3D physical world. Recent vision-language-action models (VLAs) and video world-action models (WAMs) inherit strong semantic or temporal priors from large-scale foundation models, but they still operate primarily on 2D image frames or 2D-derived latent spaces, leaving implicit the 3D geometry required for contact-rich manipulation. We propose the Geometric Action Model (GAM), a language-conditioned manipulation policy that directly repurposes a pretrained geometric foundation model (GFM) as a shared substrate for perception, temporal prediction, and action decoding. GAM splits the GFM at an intermediate layer: the shallow layers serve as an observation encoder, and a causal future predictor inserted at the split layer forecasts future latent tokens conditioned on language, proprioception, and action history. The predicted future tokens are then routed through the remaining GFM blocks for feature propagation and decoding, allowing a single backbone to produce both future geometry and actions. This design equips the GFM with language-conditioned temporal world modeling through minimal architectural modification while preserving its rich geometric priors. Across a broad suite of simulation and real-robot manipulation benchmarks, GAM is more accurate, more robust, faster, and lighter than current foundation-model-scale baselines.