MolmoAct: Modelos de Razonamiento de Acciones que Pueden Razonar en el Espacio
MolmoAct: Action Reasoning Models that can Reason in Space
August 11, 2025
Autores: Jason Lee, Jiafei Duan, Haoquan Fang, Yuquan Deng, Shuo Liu, Boyang Li, Bohan Fang, Jieyu Zhang, Yi Ru Wang, Sangho Lee, Winson Han, Wilbert Pumacay, Angelica Wu, Rose Hendrix, Karen Farley, Eli VanderBilt, Ali Farhadi, Dieter Fox, Ranjay Krishna
cs.AI
Resumen
El razonamiento es fundamental para la acción con propósito, sin embargo, la mayoría de los modelos base en robótica mapean la percepción y las instrucciones directamente al control, lo que limita la adaptabilidad, la generalización y la fundamentación semántica. Presentamos los Modelos de Razonamiento de Acción (ARMs, por sus siglas en inglés), una clase de modelos de visión-lenguaje-acción que integran percepción, planificación y control a través de una canalización estructurada en tres etapas. Nuestro modelo, MolmoAct, codifica observaciones e instrucciones en tokens de percepción con conciencia de profundidad, genera planes espaciales de nivel medio como trazas de trayectoria editables y predice acciones de bajo nivel precisas, permitiendo un comportamiento explicable y dirigible. MolmoAct-7B-D logra un rendimiento sólido en entornos de simulación y del mundo real: 70.5% de precisión en tareas de SimplerEnv Visual Matching sin entrenamiento previo, superando a Pi-0 y GR00T N1 de código cerrado; 86.6% de éxito promedio en LIBERO, incluyendo una mejora adicional del 6.3% sobre ThinkAct en tareas de horizonte largo; y en ajuste fino en el mundo real, una mejora adicional del 10% (brazo único) y del 22.7% (bimanual) en la progresión de tareas sobre Pi-0-FAST. También supera a los modelos base en un 23.3% adicional en generalización fuera de distribución y obtiene las puntuaciones más altas de preferencia humana en seguimiento de instrucciones abiertas y dirección de trayectorias. Además, por primera vez, publicamos el Conjunto de Datos MolmoAct, un conjunto de datos de robótica de entrenamiento medio que comprende más de 10,000 trayectorias robóticas de alta calidad en diversos escenarios y tareas. El entrenamiento con este conjunto de datos produce una mejora promedio del 5.5% en el rendimiento general sobre el modelo base. Publicamos todos los pesos del modelo, el código de entrenamiento, nuestro conjunto de datos recopilado y nuestro conjunto de datos de razonamiento de acción, estableciendo a MolmoAct como un modelo base de robótica de vanguardia y un plan abierto para construir ARMs que transforman la percepción en acción con propósito a través de un razonamiento estructurado. Blogpost: https://allenai.org/blog/molmoact
English
Reasoning is central to purposeful action, yet most robotic foundation models
map perception and instructions directly to control, which limits adaptability,
generalization, and semantic grounding. We introduce Action Reasoning Models
(ARMs), a class of vision-language-action models that integrate perception,
planning, and control through a structured three-stage pipeline. Our model,
MolmoAct, encodes observations and instructions into depth-aware perception
tokens, generates mid-level spatial plans as editable trajectory traces, and
predicts precise low-level actions, enabling explainable and steerable
behavior. MolmoAct-7B-D achieves strong performance across simulation and
real-world settings: 70.5% zero-shot accuracy on SimplerEnv Visual Matching
tasks, surpassing closed-source Pi-0 and GR00T N1; 86.6% average success on
LIBERO, including an additional 6.3% gain over ThinkAct on long-horizon tasks;
and in real-world fine-tuning, an additional 10% (single-arm) and an additional
22.7% (bimanual) task progression over Pi-0-FAST. It also outperforms baselines
by an additional 23.3% on out-of-distribution generalization and achieves top
human-preference scores for open-ended instruction following and trajectory
steering. Furthermore, we release, for the first time, the MolmoAct Dataset --
a mid-training robot dataset comprising over 10,000 high quality robot
trajectories across diverse scenarios and tasks. Training with this dataset
yields an average 5.5% improvement in general performance over the base model.
We release all model weights, training code, our collected dataset, and our
action reasoning dataset, establishing MolmoAct as both a state-of-the-art
robotics foundation model and an open blueprint for building ARMs that
transform perception into purposeful action through structured reasoning.
Blogpost: https://allenai.org/blog/molmoact