MolmoAct2: Модели логического вывода действий для практического применения
MolmoAct2: Action Reasoning Models for Real-world Deployment
May 4, 2026
Авторы: Haoquan Fang, Jiafei Duan, Donovan Clay, Sam Wang, Shuo Liu, Weikai Huang, Xiang Fan, Wei-Chuan Tsai, Shirui Chen, Yi Ru Wang, Shanli Xing, Jaemin Cho, Jae Sung Park, Ainaz Eftekhar, Peter Sushko, Karen Farley, Angad Wadhwa, Cole Harrison, Winson Han, Ying-Chun Lee, Eli VanderBilt, Rose Hendrix, Suveen Ellawela, Lucas Ngoo, Joyce Chai, Zhongzheng Ren, Ali Farhadi, Dieter Fox, Ranjay Krishna
cs.AI
Аннотация
Модели «Vision-Language-Action» (VLA) стремятся создать единый универсальный контроллер для роботов, но современные системы не соответствуют критериям, важным для реального развертывания. Передовые модели являются закрытыми, открытые по весам альтернативы привязаны к дорогостоящему оборудованию, политики с расширенным логическим выводом имеют непозволительно высокую задержку для своего обоснования, а показатели успешности после тонкой настройки остаются ниже порога надежного использования. Мы представляем MolmoAct2 — полностью открытую модель для принятия действий, созданную для практического развертывания и улучшающую свою предшественницу по пяти направлениям. Мы представляем MolmoER, основу VLM, специализированную для пространственного и воплощенного логического вывода, обученную на корпусе из 3,3 млн примеров по рецепту «специализация, затем репетиция». Мы выпускаем три новых набора данных, охватывающих платформы с низкой и средней стоимостью, включая MolmoAct2-BimanualYAM — 720 часов телеуправляемых двуручных траекторий, которые составляют крупнейший на сегодня открытый набор данных по двуручным манипуляциям, вместе с качественно отфильтрованными подмножествами для Franka (DROID) и SO100/101. Мы предоставляем OpenFAST — открытый по весам и данным токенизатор действий, обученный на миллионах траекторий для пяти воплощений. Мы переработали архитектуру, чтобы привить эксперта по непрерывным действиям на основе flow matching к VLM с дискретными токенами через условение KV-кэша на каждом слое. Наконец, мы предлагаем MolmoThink — вариант с адаптивной глубиной логического вывода, который пересчитывает токены глубины только для областей сцены, изменяющихся между временными шагами, сохраняя геометрическую обоснованность при доле задержки от предыдущих подходов. В самом масштабном на сегодня эмпирическом исследовании любой открытой VLA, охватывающем 7 бенчмарков в симуляции и реальном мире, MolmoAct2 превосходит сильные базовые линии, включая Pi-05, в то время как MolmoER превосходит GPT-5 и Gemini Robotics ER-1.5 по 13 бенчмаркам на воплощенное рассуждение. Мы публикуем веса моделей, код обучения и полные данные для обучения. Страница проекта: https://allenai.org/blog/molmoact2
English
Vision-Language-Action (VLA) models aim to provide a single generalist controller for robots, but today's systems fall short on the criteria that matter for real-world deployment. Frontier models are closed, open-weight alternatives are tied to expensive hardware, reasoning-augmented policies pay prohibitive latency for their grounding, and fine-tuned success rates remain below the threshold for dependable use. We present MolmoAct2, a fully open action reasoning model built for practical deployment, advancing its predecessor along five axes. We introduce MolmoER, a VLM backbone specialized for spatial and embodied reasoning, trained on a 3.3M-sample corpus with a specialize-then-rehearse recipe. We release three new datasets spanning low-to-medium cost platforms, including MolmoAct2-BimanualYAM, 720 hours of teleoperated bimanual trajectories that constitute the largest open bimanual dataset to date, together with quality-filtered Franka (DROID) and SO100/101 subsets. We provide OpenFAST, an open-weight, open-data action tokenizer trained on millions of trajectories across five embodiments. We redesign the architecture to graft a flow-matching continuous-action expert onto a discrete-token VLM via per-layer KV-cache conditioning. Finally, we propose MolmoThink, an adaptive-depth reasoning variant that re-predicts depth tokens only for scene regions that change between timesteps, retaining geometric grounding at a fraction of prior latency. In the most extensive empirical study of any open VLA to date, spanning 7 simulation and real-world benchmarks, MolmoAct2 outperforms strong baselines including Pi-05, while MolmoER surpasses GPT-5 and Gemini Robotics ER-1.5 across 13 embodied-reasoning benchmarks. We release model weights, training code, and complete training data. Project page: https://allenai.org/blog/molmoact2