MolmoAct: Modelos de Raciocínio de Ações que Podem Raciocinar no Espaço
MolmoAct: Action Reasoning Models that can Reason in Space
August 11, 2025
Autores: Jason Lee, Jiafei Duan, Haoquan Fang, Yuquan Deng, Shuo Liu, Boyang Li, Bohan Fang, Jieyu Zhang, Yi Ru Wang, Sangho Lee, Winson Han, Wilbert Pumacay, Angelica Wu, Rose Hendrix, Karen Farley, Eli VanderBilt, Ali Farhadi, Dieter Fox, Ranjay Krishna
cs.AI
Resumo
O raciocínio é central para ações propositadas, mas a maioria dos modelos de base robóticos mapeia percepção e instruções diretamente para controle, o que limita a adaptabilidade, generalização e fundamentação semântica. Apresentamos os Modelos de Raciocínio de Ação (ARMs), uma classe de modelos visão-linguagem-ação que integram percepção, planejamento e controle por meio de um pipeline estruturado em três estágios. Nosso modelo, MolmoAct, codifica observações e instruções em tokens de percepção com consciência de profundidade, gera planos espaciais de nível médio como traços de trajetória editáveis e prevê ações de baixo nível precisas, permitindo comportamento explicável e direcionável. O MolmoAct-7B-D alcança forte desempenho em ambientes de simulação e do mundo real: 70,5% de precisão zero-shot em tarefas de Correspondência Visual do SimplerEnv, superando o Pi-0 e o GR00T N1 de código fechado; 86,6% de sucesso médio no LIBERO, incluindo um ganho adicional de 6,3% sobre o ThinkAct em tarefas de longo horizonte; e, no ajuste fino do mundo real, um progresso adicional de 10% (braço único) e 22,7% (bimanual) em tarefas sobre o Pi-0-FAST. Ele também supera as linhas de base em 23,3% na generalização fora da distribuição e alcança as melhores pontuações de preferência humana para seguir instruções abertas e direcionar trajetórias. Além disso, lançamos, pela primeira vez, o Conjunto de Dados MolmoAct — um conjunto de dados robóticos de meio de treinamento composto por mais de 10.000 trajetórias robóticas de alta qualidade em diversos cenários e tarefas. O treinamento com este conjunto de dados resulta em uma melhoria média de 5,5% no desempenho geral em relação ao modelo base. Lançamos todos os pesos do modelo, código de treinamento, nosso conjunto de dados coletado e nosso conjunto de dados de raciocínio de ação, estabelecendo o MolmoAct como um modelo de base robótica de última geração e um projeto aberto para a construção de ARMs que transformam percepção em ação propositada por meio de raciocínio estruturado. Blogpost: https://allenai.org/blog/molmoact
English
Reasoning is central to purposeful action, yet most robotic foundation models
map perception and instructions directly to control, which limits adaptability,
generalization, and semantic grounding. We introduce Action Reasoning Models
(ARMs), a class of vision-language-action models that integrate perception,
planning, and control through a structured three-stage pipeline. Our model,
MolmoAct, encodes observations and instructions into depth-aware perception
tokens, generates mid-level spatial plans as editable trajectory traces, and
predicts precise low-level actions, enabling explainable and steerable
behavior. MolmoAct-7B-D achieves strong performance across simulation and
real-world settings: 70.5% zero-shot accuracy on SimplerEnv Visual Matching
tasks, surpassing closed-source Pi-0 and GR00T N1; 86.6% average success on
LIBERO, including an additional 6.3% gain over ThinkAct on long-horizon tasks;
and in real-world fine-tuning, an additional 10% (single-arm) and an additional
22.7% (bimanual) task progression over Pi-0-FAST. It also outperforms baselines
by an additional 23.3% on out-of-distribution generalization and achieves top
human-preference scores for open-ended instruction following and trajectory
steering. Furthermore, we release, for the first time, the MolmoAct Dataset --
a mid-training robot dataset comprising over 10,000 high quality robot
trajectories across diverse scenarios and tasks. Training with this dataset
yields an average 5.5% improvement in general performance over the base model.
We release all model weights, training code, our collected dataset, and our
action reasoning dataset, establishing MolmoAct as both a state-of-the-art
robotics foundation model and an open blueprint for building ARMs that
transform perception into purposeful action through structured reasoning.
Blogpost: https://allenai.org/blog/molmoact