MolmoAct : Modèles de raisonnement d'actions capables de raisonner dans l'espace
MolmoAct: Action Reasoning Models that can Reason in Space
August 11, 2025
papers.authors: Jason Lee, Jiafei Duan, Haoquan Fang, Yuquan Deng, Shuo Liu, Boyang Li, Bohan Fang, Jieyu Zhang, Yi Ru Wang, Sangho Lee, Winson Han, Wilbert Pumacay, Angelica Wu, Rose Hendrix, Karen Farley, Eli VanderBilt, Ali Farhadi, Dieter Fox, Ranjay Krishna
cs.AI
papers.abstract
Le raisonnement est au cœur de l'action intentionnelle, pourtant la plupart des modèles de base en robotique associent directement perception et instructions au contrôle, ce qui limite l'adaptabilité, la généralisation et l'ancrage sémantique. Nous présentons les **Modèles de Raisonnement d'Action (ARMs)**, une classe de modèles vision-langage-action qui intègrent perception, planification et contrôle via un pipeline structuré en trois étapes. Notre modèle, **MolmoAct**, encode les observations et les instructions en tokens de perception prenant en compte la profondeur, génère des plans spatiaux de niveau intermédiaire sous forme de traces de trajectoires modifiables, et prédit des actions de bas niveau précises, permettant un comportement explicable et pilotable. **MolmoAct-7B-D** obtient des performances solides en simulation et dans des environnements réels : 70,5 % de précision en zero-shot sur les tâches de **SimplerEnv Visual Matching**, surpassant les modèles propriétaires **Pi-0** et **GR00T N1** ; 86,6 % de succès moyen sur **LIBERO**, incluant un gain supplémentaire de 6,3 % par rapport à **ThinkAct** sur les tâches à long terme ; et lors d'un réglage fin dans le monde réel, une progression supplémentaire de 10 % (bras unique) et de 22,7 % (bimanuel) par rapport à **Pi-0-FAST**. Il surpasse également les modèles de référence de 23,3 % en généralisation hors distribution et obtient les meilleurs scores de préférence humaine pour le suivi d'instructions ouvertes et le pilotage de trajectoires. Par ailleurs, nous publions pour la première fois le **MolmoAct Dataset** — un ensemble de données robotiques intermédiaires comprenant plus de 10 000 trajectoires robotiques de haute qualité couvrant divers scénarios et tâches. L'entraînement avec cet ensemble de données améliore les performances générales de 5,5 % en moyenne par rapport au modèle de base. Nous publions tous les poids du modèle, le code d'entraînement, notre ensemble de données collecté et notre ensemble de données de raisonnement d'action, établissant **MolmoAct** à la fois comme un modèle de base robotique de pointe et comme un plan ouvert pour construire des ARMs qui transforment la perception en action intentionnelle via un raisonnement structuré.
Blogpost : https://allenai.org/blog/molmoact
English
Reasoning is central to purposeful action, yet most robotic foundation models
map perception and instructions directly to control, which limits adaptability,
generalization, and semantic grounding. We introduce Action Reasoning Models
(ARMs), a class of vision-language-action models that integrate perception,
planning, and control through a structured three-stage pipeline. Our model,
MolmoAct, encodes observations and instructions into depth-aware perception
tokens, generates mid-level spatial plans as editable trajectory traces, and
predicts precise low-level actions, enabling explainable and steerable
behavior. MolmoAct-7B-D achieves strong performance across simulation and
real-world settings: 70.5% zero-shot accuracy on SimplerEnv Visual Matching
tasks, surpassing closed-source Pi-0 and GR00T N1; 86.6% average success on
LIBERO, including an additional 6.3% gain over ThinkAct on long-horizon tasks;
and in real-world fine-tuning, an additional 10% (single-arm) and an additional
22.7% (bimanual) task progression over Pi-0-FAST. It also outperforms baselines
by an additional 23.3% on out-of-distribution generalization and achieves top
human-preference scores for open-ended instruction following and trajectory
steering. Furthermore, we release, for the first time, the MolmoAct Dataset --
a mid-training robot dataset comprising over 10,000 high quality robot
trajectories across diverse scenarios and tasks. Training with this dataset
yields an average 5.5% improvement in general performance over the base model.
We release all model weights, training code, our collected dataset, and our
action reasoning dataset, establishing MolmoAct as both a state-of-the-art
robotics foundation model and an open blueprint for building ARMs that
transform perception into purposeful action through structured reasoning.
Blogpost: https://allenai.org/blog/molmoact