MolmoAct: Modelli di ragionamento sulle azioni in grado di ragionare nello spazio
MolmoAct: Action Reasoning Models that can Reason in Space
August 11, 2025
Autori: Jason Lee, Jiafei Duan, Haoquan Fang, Yuquan Deng, Shuo Liu, Boyang Li, Bohan Fang, Jieyu Zhang, Yi Ru Wang, Sangho Lee, Winson Han, Wilbert Pumacay, Angelica Wu, Rose Hendrix, Karen Farley, Eli VanderBilt, Ali Farhadi, Dieter Fox, Ranjay Krishna
cs.AI
Abstract
Il ragionamento è centrale per l'azione finalizzata, eppure la maggior parte dei modelli di base per la robotica mappano direttamente percezione e istruzioni al controllo, limitando adattabilità, generalizzazione e fondamento semantico. Introduciamo i Modelli di Ragionamento sull'Azione (ARMs), una classe di modelli visione-linguaggio-azione che integrano percezione, pianificazione e controllo attraverso una pipeline strutturata in tre fasi. Il nostro modello, MolmoAct, codifica osservazioni e istruzioni in token di percezione consapevoli della profondità, genera piani spaziali di medio livello come tracce di traiettorie modificabili e predice azioni di basso livello precise, consentendo un comportamento spiegabile e guidabile. MolmoAct-7B-D ottiene prestazioni solide sia in contesti simulati che reali: 70,5% di accuratezza zero-shot sui task di SimplerEnv Visual Matching, superando i modelli closed-source Pi-0 e GR00T N1; 86,6% di successo medio su LIBERO, con un ulteriore guadagno del 6,3% rispetto a ThinkAct sui task a lungo orizzonte; e, nel fine-tuning nel mondo reale, un progresso del 10% (monobraccio) e del 22,7% (bimanuale) rispetto a Pi-0-FAST. Supera inoltre i modelli di riferimento del 23,3% nella generalizzazione fuori distribuzione e raggiunge i punteggi più alti nelle preferenze umane per il seguimento di istruzioni aperte e la guida delle traiettorie. Inoltre, rilasciamo per la prima volta il MolmoAct Dataset, un dataset robotico di medio addestramento che comprende oltre 10.000 traiettorie robotiche di alta qualità in scenari e task diversificati. L'addestramento con questo dataset produce un miglioramento medio del 5,5% nelle prestazioni generali rispetto al modello base. Rilasciamo tutti i pesi del modello, il codice di addestramento, il nostro dataset raccolto e il dataset di ragionamento sull'azione, stabilendo MolmoAct sia come un modello di base per la robotica all'avanguardia, sia come un progetto aperto per costruire ARMs che trasformano la percezione in azione finalizzata attraverso un ragionamento strutturato. Blogpost: https://allenai.org/blog/molmoact
English
Reasoning is central to purposeful action, yet most robotic foundation models
map perception and instructions directly to control, which limits adaptability,
generalization, and semantic grounding. We introduce Action Reasoning Models
(ARMs), a class of vision-language-action models that integrate perception,
planning, and control through a structured three-stage pipeline. Our model,
MolmoAct, encodes observations and instructions into depth-aware perception
tokens, generates mid-level spatial plans as editable trajectory traces, and
predicts precise low-level actions, enabling explainable and steerable
behavior. MolmoAct-7B-D achieves strong performance across simulation and
real-world settings: 70.5% zero-shot accuracy on SimplerEnv Visual Matching
tasks, surpassing closed-source Pi-0 and GR00T N1; 86.6% average success on
LIBERO, including an additional 6.3% gain over ThinkAct on long-horizon tasks;
and in real-world fine-tuning, an additional 10% (single-arm) and an additional
22.7% (bimanual) task progression over Pi-0-FAST. It also outperforms baselines
by an additional 23.3% on out-of-distribution generalization and achieves top
human-preference scores for open-ended instruction following and trajectory
steering. Furthermore, we release, for the first time, the MolmoAct Dataset --
a mid-training robot dataset comprising over 10,000 high quality robot
trajectories across diverse scenarios and tasks. Training with this dataset
yields an average 5.5% improvement in general performance over the base model.
We release all model weights, training code, our collected dataset, and our
action reasoning dataset, establishing MolmoAct as both a state-of-the-art
robotics foundation model and an open blueprint for building ARMs that
transform perception into purposeful action through structured reasoning.
Blogpost: https://allenai.org/blog/molmoact