MolmoAct : Modèles de raisonnement d'actions capables de raisonner dans l'espace

papers.abstract

Le raisonnement est au cœur de l'action intentionnelle, pourtant la plupart des modèles de base en robotique associent directement perception et instructions au contrôle, ce qui limite l'adaptabilité, la généralisation et l'ancrage sémantique. Nous présentons les **Modèles de Raisonnement d'Action (ARMs)**, une classe de modèles vision-langage-action qui intègrent perception, planification et contrôle via un pipeline structuré en trois étapes. Notre modèle, **MolmoAct**, encode les observations et les instructions en tokens de perception prenant en compte la profondeur, génère des plans spatiaux de niveau intermédiaire sous forme de traces de trajectoires modifiables, et prédit des actions de bas niveau précises, permettant un comportement explicable et pilotable. **MolmoAct-7B-D** obtient des performances solides en simulation et dans des environnements réels : 70,5 % de précision en zero-shot sur les tâches de **SimplerEnv Visual Matching**, surpassant les modèles propriétaires **Pi-0** et **GR00T N1** ; 86,6 % de succès moyen sur **LIBERO**, incluant un gain supplémentaire de 6,3 % par rapport à **ThinkAct** sur les tâches à long terme ; et lors d'un réglage fin dans le monde réel, une progression supplémentaire de 10 % (bras unique) et de 22,7 % (bimanuel) par rapport à **Pi-0-FAST**. Il surpasse également les modèles de référence de 23,3 % en généralisation hors distribution et obtient les meilleurs scores de préférence humaine pour le suivi d'instructions ouvertes et le pilotage de trajectoires. Par ailleurs, nous publions pour la première fois le **MolmoAct Dataset** — un ensemble de données robotiques intermédiaires comprenant plus de 10 000 trajectoires robotiques de haute qualité couvrant divers scénarios et tâches. L'entraînement avec cet ensemble de données améliore les performances générales de 5,5 % en moyenne par rapport au modèle de base. Nous publions tous les poids du modèle, le code d'entraînement, notre ensemble de données collecté et notre ensemble de données de raisonnement d'action, établissant **MolmoAct** à la fois comme un modèle de base robotique de pointe et comme un plan ouvert pour construire des ARMs qui transforment la perception en action intentionnelle via un raisonnement structuré. Blogpost : https://allenai.org/blog/molmoact

English

Reasoning is central to purposeful action, yet most robotic foundation models map perception and instructions directly to control, which limits adaptability, generalization, and semantic grounding. We introduce Action Reasoning Models (ARMs), a class of vision-language-action models that integrate perception, planning, and control through a structured three-stage pipeline. Our model, MolmoAct, encodes observations and instructions into depth-aware perception tokens, generates mid-level spatial plans as editable trajectory traces, and predicts precise low-level actions, enabling explainable and steerable behavior. MolmoAct-7B-D achieves strong performance across simulation and real-world settings: 70.5% zero-shot accuracy on SimplerEnv Visual Matching tasks, surpassing closed-source Pi-0 and GR00T N1; 86.6% average success on LIBERO, including an additional 6.3% gain over ThinkAct on long-horizon tasks; and in real-world fine-tuning, an additional 10% (single-arm) and an additional 22.7% (bimanual) task progression over Pi-0-FAST. It also outperforms baselines by an additional 23.3% on out-of-distribution generalization and achieves top human-preference scores for open-ended instruction following and trajectory steering. Furthermore, we release, for the first time, the MolmoAct Dataset -- a mid-training robot dataset comprising over 10,000 high quality robot trajectories across diverse scenarios and tasks. Training with this dataset yields an average 5.5% improvement in general performance over the base model. We release all model weights, training code, our collected dataset, and our action reasoning dataset, establishing MolmoAct as both a state-of-the-art robotics foundation model and an open blueprint for building ARMs that transform perception into purposeful action through structured reasoning. Blogpost: https://allenai.org/blog/molmoact

MolmoAct : Modèles de raisonnement d'actions capables de raisonner dans l'espace

MolmoAct: Action Reasoning Models that can Reason in Space

papers.abstract

Support