MolmoAct2: Actieredeneermodellen voor Implementatie in de Praktijk
MolmoAct2: Action Reasoning Models for Real-world Deployment
May 4, 2026
Auteurs: Haoquan Fang, Jiafei Duan, Donovan Clay, Sam Wang, Shuo Liu, Weikai Huang, Xiang Fan, Wei-Chuan Tsai, Shirui Chen, Yi Ru Wang, Shanli Xing, Jaemin Cho, Jae Sung Park, Ainaz Eftekhar, Peter Sushko, Karen Farley, Angad Wadhwa, Cole Harrison, Winson Han, Ying-Chun Lee, Eli VanderBilt, Rose Hendrix, Suveen Ellawela, Lucas Ngoo, Joyce Chai, Zhongzheng Ren, Ali Farhadi, Dieter Fox, Ranjay Krishna
cs.AI
Samenvatting
Vision-Language-Action (VLA)-modellen hebben als doel een enkele generalistische controller voor robots te bieden, maar de huidige systemen schieten tekort op de criteria die van belang zijn voor inzet in de praktijk. Frontier-modellen zijn gesloten, open-weight alternatieven zijn gekoppeld aan dure hardware, reasoning-augmented policies betalen een verboden hoge latentie voor hun grounding, en fijn afgestemde slagingspercentages blijven onder de drempel voor betrouwbaar gebruik. Wij presenteren MolmoAct2, een volledig open action reasoning-model gebouwd voor praktische inzet, dat zijn voorganger op vijf assen verbetert. Wij introduceren MolmoER, een VLM-backbone gespecialiseerd in ruimtelijk en embodied reasoning, getraind op een corpus van 3,3 miljoen samples met een specialiseer-dan-repeteer recept. Wij brengen drie nieuwe datasets uit die low-to-medium cost platforms bestrijken, waaronder MolmoAct2-BimanualYAM, 720 uur aan telegeoperreerde bimanuele trajecten die de grootste open bimanuele dataset tot op heden vormen, samen met kwalitatief gefilterde Franka (DROID) en SO100/101 subsets. Wij bieden OpenFAST, een open-weight, open-data action tokenizer getraind op miljoenen trajecten over vijf embodimenten. Wij herontwerpen de architectuur om een flow-matching continuous-action expert te enten op een discrete-token VLM via per-layer KV-cache conditioning. Ten slotte stellen wij MolmoThink voor, een adaptieve-diepte reasoning-variant die alleen dieptetokens opnieuw voorspelt voor scènegebieden die tussen tijdstappen veranderen, waardoor geometrische grounding behouden blijft tegen een fractie van de eerdere latentie. In de meest uitgebreide empirische studie van enige open VLA tot nu toe, die 7 simulatie- en praktijkbenchmarks omvat, presteert MolmoAct2 beter dan sterke baselines, waaronder Pi-05, terwijl MolmoER GPT-5 en Gemini Robotics ER-1.5 overtreft over 13 embodied-reasoning benchmarks. Wij geven modelgewichten, trainingscode en complete trainingsdata vrij. Projectpagina: https://allenai.org/blog/molmoact2
English
Vision-Language-Action (VLA) models aim to provide a single generalist controller for robots, but today's systems fall short on the criteria that matter for real-world deployment. Frontier models are closed, open-weight alternatives are tied to expensive hardware, reasoning-augmented policies pay prohibitive latency for their grounding, and fine-tuned success rates remain below the threshold for dependable use. We present MolmoAct2, a fully open action reasoning model built for practical deployment, advancing its predecessor along five axes. We introduce MolmoER, a VLM backbone specialized for spatial and embodied reasoning, trained on a 3.3M-sample corpus with a specialize-then-rehearse recipe. We release three new datasets spanning low-to-medium cost platforms, including MolmoAct2-BimanualYAM, 720 hours of teleoperated bimanual trajectories that constitute the largest open bimanual dataset to date, together with quality-filtered Franka (DROID) and SO100/101 subsets. We provide OpenFAST, an open-weight, open-data action tokenizer trained on millions of trajectories across five embodiments. We redesign the architecture to graft a flow-matching continuous-action expert onto a discrete-token VLM via per-layer KV-cache conditioning. Finally, we propose MolmoThink, an adaptive-depth reasoning variant that re-predicts depth tokens only for scene regions that change between timesteps, retaining geometric grounding at a fraction of prior latency. In the most extensive empirical study of any open VLA to date, spanning 7 simulation and real-world benchmarks, MolmoAct2 outperforms strong baselines including Pi-05, while MolmoER surpasses GPT-5 and Gemini Robotics ER-1.5 across 13 embodied-reasoning benchmarks. We release model weights, training code, and complete training data. Project page: https://allenai.org/blog/molmoact2