MolmoAct: Модели рассуждений о действиях, способные рассуждать в пространстве
MolmoAct: Action Reasoning Models that can Reason in Space
August 11, 2025
Авторы: Jason Lee, Jiafei Duan, Haoquan Fang, Yuquan Deng, Shuo Liu, Boyang Li, Bohan Fang, Jieyu Zhang, Yi Ru Wang, Sangho Lee, Winson Han, Wilbert Pumacay, Angelica Wu, Rose Hendrix, Karen Farley, Eli VanderBilt, Ali Farhadi, Dieter Fox, Ranjay Krishna
cs.AI
Аннотация
Рассуждение является ключевым элементом целенаправленного действия, однако большинство базовых моделей для робототехники напрямую связывают восприятие и инструкции с управлением, что ограничивает адаптивность, обобщение и семантическую связность. Мы представляем Модели Рассуждения о Действиях (Action Reasoning Models, ARMs) — класс моделей, объединяющих восприятие, планирование и управление через структурированный трехэтапный процесс. Наша модель, MolmoAct, кодирует наблюдения и инструкции в токены восприятия с учетом глубины, генерирует промежуточные пространственные планы в виде редактируемых траекторий и предсказывает точные низкоуровневые действия, обеспечивая объяснимое и управляемое поведение. MolmoAct-7B-D демонстрирует высокие результаты как в симуляциях, так и в реальных условиях: 70,5% точности в задачах SimplerEnv Visual Matching без предварительного обучения, превосходя закрытые модели Pi-0 и GR00T N1; 86,6% среднего успеха на LIBERO, включая дополнительный прирост на 6,3% по сравнению с ThinkAct в задачах с длительным горизонтом; а также в реальных условиях, при тонкой настройке, дополнительный прирост на 10% (одноручные задачи) и 22,7% (двуручные задачи) по сравнению с Pi-0-FAST. Модель также превосходит базовые подходы на 23,3% в задачах обобщения на данные вне распределения и достигает наивысших оценок по предпочтениям людей в задачах открытого следования инструкциям и управления траекториями. Кроме того, мы впервые публикуем набор данных MolmoAct Dataset — набор данных для обучения роботов, включающий более 10 000 высококачественных траекторий для различных сценариев и задач. Обучение на этом наборе данных обеспечивает среднее улучшение общей производительности на 5,5% по сравнению с базовой моделью. Мы публикуем все веса модели, код для обучения, собранный набор данных и набор данных для рассуждения о действиях, устанавливая MolmoAct как передовую базовую модель для робототехники и открытый шаблон для создания ARMs, которые преобразуют восприятие в целенаправленные действия через структурированные рассуждения. Блог: https://allenai.org/blog/molmoact
English
Reasoning is central to purposeful action, yet most robotic foundation models
map perception and instructions directly to control, which limits adaptability,
generalization, and semantic grounding. We introduce Action Reasoning Models
(ARMs), a class of vision-language-action models that integrate perception,
planning, and control through a structured three-stage pipeline. Our model,
MolmoAct, encodes observations and instructions into depth-aware perception
tokens, generates mid-level spatial plans as editable trajectory traces, and
predicts precise low-level actions, enabling explainable and steerable
behavior. MolmoAct-7B-D achieves strong performance across simulation and
real-world settings: 70.5% zero-shot accuracy on SimplerEnv Visual Matching
tasks, surpassing closed-source Pi-0 and GR00T N1; 86.6% average success on
LIBERO, including an additional 6.3% gain over ThinkAct on long-horizon tasks;
and in real-world fine-tuning, an additional 10% (single-arm) and an additional
22.7% (bimanual) task progression over Pi-0-FAST. It also outperforms baselines
by an additional 23.3% on out-of-distribution generalization and achieves top
human-preference scores for open-ended instruction following and trajectory
steering. Furthermore, we release, for the first time, the MolmoAct Dataset --
a mid-training robot dataset comprising over 10,000 high quality robot
trajectories across diverse scenarios and tasks. Training with this dataset
yields an average 5.5% improvement in general performance over the base model.
We release all model weights, training code, our collected dataset, and our
action reasoning dataset, establishing MolmoAct as both a state-of-the-art
robotics foundation model and an open blueprint for building ARMs that
transform perception into purposeful action through structured reasoning.
Blogpost: https://allenai.org/blog/molmoact