MolmoAct: Actie-redeneermodellen die in de ruimte kunnen redeneren
MolmoAct: Action Reasoning Models that can Reason in Space
August 11, 2025
Auteurs: Jason Lee, Jiafei Duan, Haoquan Fang, Yuquan Deng, Shuo Liu, Boyang Li, Bohan Fang, Jieyu Zhang, Yi Ru Wang, Sangho Lee, Winson Han, Wilbert Pumacay, Angelica Wu, Rose Hendrix, Karen Farley, Eli VanderBilt, Ali Farhadi, Dieter Fox, Ranjay Krishna
cs.AI
Samenvatting
Redeneren staat centraal bij doelgericht handelen, maar de meeste robotische basismodellen koppelen waarneming en instructies direct aan besturing, wat de aanpassingsvermogen, generalisatie en semantische verankering beperkt. Wij introduceren Action Reasoning Models (ARMs), een klasse van visie-taal-actie-modellen die waarneming, planning en besturing integreren via een gestructureerde drietrapspijplijn. Ons model, MolmoAct, codeert waarnemingen en instructies in dieptebewuste waarnemingstokens, genereert middenniveau ruimtelijke plannen als bewerkbare trajectsporen, en voorspelt precieze laagniveau acties, wat verklaarbaar en stuurbaar gedrag mogelijk maakt. MolmoAct-7B-D behaalt sterke prestaties in zowel simulatie- als real-world omgevingen: 70,5% zero-shot nauwkeurigheid op SimplerEnv Visual Matching taken, wat gesloten bron Pi-0 en GR00T N1 overtreft; 86,6% gemiddeld succes op LIBERO, inclusief een extra 6,3% winst ten opzichte van ThinkAct op langetermijntaken; en bij real-world fine-tuning een extra 10% (enkelarm) en een extra 22,7% (tweehandig) taakvoortgang ten opzichte van Pi-0-FAST. Het overtreft ook de basislijnen met een extra 23,3% op out-of-distribution generalisatie en behaalt de hoogste menselijke voorkeursscores voor open-einde instructievolging en trajectsturing. Bovendien brengen wij, voor het eerst, de MolmoAct Dataset uit – een mid-training robotdataset bestaande uit meer dan 10.000 hoogwaardige robot trajecten over diverse scenario's en taken. Trainen met deze dataset resulteert in een gemiddelde prestatieverbetering van 5,5% ten opzichte van het basismodel. Wij brengen alle modelgewichten, trainingscode, onze verzamelde dataset en onze actieredeneringsdataset uit, waarmee MolmoAct zowel een state-of-the-art robotica basismodel als een open blauwdruk wordt voor het bouwen van ARMs die waarneming omzetten in doelgericht handelen via gestructureerd redeneren. Blogpost: https://allenai.org/blog/molmoact
English
Reasoning is central to purposeful action, yet most robotic foundation models
map perception and instructions directly to control, which limits adaptability,
generalization, and semantic grounding. We introduce Action Reasoning Models
(ARMs), a class of vision-language-action models that integrate perception,
planning, and control through a structured three-stage pipeline. Our model,
MolmoAct, encodes observations and instructions into depth-aware perception
tokens, generates mid-level spatial plans as editable trajectory traces, and
predicts precise low-level actions, enabling explainable and steerable
behavior. MolmoAct-7B-D achieves strong performance across simulation and
real-world settings: 70.5% zero-shot accuracy on SimplerEnv Visual Matching
tasks, surpassing closed-source Pi-0 and GR00T N1; 86.6% average success on
LIBERO, including an additional 6.3% gain over ThinkAct on long-horizon tasks;
and in real-world fine-tuning, an additional 10% (single-arm) and an additional
22.7% (bimanual) task progression over Pi-0-FAST. It also outperforms baselines
by an additional 23.3% on out-of-distribution generalization and achieves top
human-preference scores for open-ended instruction following and trajectory
steering. Furthermore, we release, for the first time, the MolmoAct Dataset --
a mid-training robot dataset comprising over 10,000 high quality robot
trajectories across diverse scenarios and tasks. Training with this dataset
yields an average 5.5% improvement in general performance over the base model.
We release all model weights, training code, our collected dataset, and our
action reasoning dataset, establishing MolmoAct as both a state-of-the-art
robotics foundation model and an open blueprint for building ARMs that
transform perception into purposeful action through structured reasoning.
Blogpost: https://allenai.org/blog/molmoact