MolmoAct: Aktionsverständnismodelle, die räumlich schlussfolgern können
MolmoAct: Action Reasoning Models that can Reason in Space
August 11, 2025
papers.authors: Jason Lee, Jiafei Duan, Haoquan Fang, Yuquan Deng, Shuo Liu, Boyang Li, Bohan Fang, Jieyu Zhang, Yi Ru Wang, Sangho Lee, Winson Han, Wilbert Pumacay, Angelica Wu, Rose Hendrix, Karen Farley, Eli VanderBilt, Ali Farhadi, Dieter Fox, Ranjay Krishna
cs.AI
papers.abstract
Das logische Denken ist zentral für zielgerichtetes Handeln, doch die meisten robotischen Basismodelle bilden Wahrnehmung und Anweisungen direkt auf Steuerung ab, was die Anpassungsfähigkeit, Generalisierung und semantische Verankerung einschränkt. Wir stellen Action Reasoning Models (ARMs) vor, eine Klasse von Vision-Sprache-Handlungs-Modellen, die Wahrnehmung, Planung und Steuerung durch eine strukturierte dreistufige Pipeline integrieren. Unser Modell, MolmoAct, kodiert Beobachtungen und Anweisungen in tiefenbewusste Wahrnehmungstoken, erzeugt mittelgroße räumliche Pläne als editierbare Trajektorienspuren und sagt präzise niedrigstufige Aktionen voraus, wodurch erklärbares und lenkbares Verhalten ermöglicht wird. MolmoAct-7B-D erzielt starke Leistungen in Simulationen und realen Umgebungen: 70,5 % Zero-Shot-Genauigkeit bei SimplerEnv Visual Matching-Aufgaben, womit es die Closed-Source-Modelle Pi-0 und GR00T N1 übertrifft; 86,6 % durchschnittlicher Erfolg bei LIBERO, einschließlich eines zusätzlichen Zuwachses von 6,3 % gegenüber ThinkAct bei langfristigen Aufgaben; und bei der Feinabstimmung in der realen Welt eine zusätzliche Steigerung von 10 % (Einarm) und 22,7 % (Zweiarm) im Aufgabenfortschritt gegenüber Pi-0-FAST. Es übertrifft auch die Baselines um zusätzliche 23,3 % bei der Generalisierung außerhalb der Verteilung und erreicht die besten menschlichen Präferenzwerte für offene Anweisungsbefolgung und Trajektorienlenkung. Darüber hinaus veröffentlichen wir erstmals den MolmoAct-Datensatz – einen mittleren Trainingsdatensatz für Roboter, der über 10.000 hochwertige Roboter-Trajektorien in verschiedenen Szenarien und Aufgaben umfasst. Das Training mit diesem Datensatz führt zu einer durchschnittlichen Verbesserung der allgemeinen Leistung um 5,5 % gegenüber dem Basismodell. Wir veröffentlichen alle Modellgewichte, Trainingscode, unseren gesammelten Datensatz und unseren Action Reasoning-Datensatz und etablieren MolmoAct sowohl als modernstes robotisches Basismodell als auch als offene Blaupause für den Aufbau von ARMs, die Wahrnehmung durch strukturiertes Denken in zielgerichtetes Handeln umwandeln. Blogpost: https://allenai.org/blog/molmoact
English
Reasoning is central to purposeful action, yet most robotic foundation models
map perception and instructions directly to control, which limits adaptability,
generalization, and semantic grounding. We introduce Action Reasoning Models
(ARMs), a class of vision-language-action models that integrate perception,
planning, and control through a structured three-stage pipeline. Our model,
MolmoAct, encodes observations and instructions into depth-aware perception
tokens, generates mid-level spatial plans as editable trajectory traces, and
predicts precise low-level actions, enabling explainable and steerable
behavior. MolmoAct-7B-D achieves strong performance across simulation and
real-world settings: 70.5% zero-shot accuracy on SimplerEnv Visual Matching
tasks, surpassing closed-source Pi-0 and GR00T N1; 86.6% average success on
LIBERO, including an additional 6.3% gain over ThinkAct on long-horizon tasks;
and in real-world fine-tuning, an additional 10% (single-arm) and an additional
22.7% (bimanual) task progression over Pi-0-FAST. It also outperforms baselines
by an additional 23.3% on out-of-distribution generalization and achieves top
human-preference scores for open-ended instruction following and trajectory
steering. Furthermore, we release, for the first time, the MolmoAct Dataset --
a mid-training robot dataset comprising over 10,000 high quality robot
trajectories across diverse scenarios and tasks. Training with this dataset
yields an average 5.5% improvement in general performance over the base model.
We release all model weights, training code, our collected dataset, and our
action reasoning dataset, establishing MolmoAct as both a state-of-the-art
robotics foundation model and an open blueprint for building ARMs that
transform perception into purposeful action through structured reasoning.
Blogpost: https://allenai.org/blog/molmoact