ChatPaper.aiChatPaper

MolmoAct2: Aktionsschlussfolgungsmodelle für den Einsatz in der realen Welt

MolmoAct2: Action Reasoning Models for Real-world Deployment

May 4, 2026
Autoren: Haoquan Fang, Jiafei Duan, Donovan Clay, Sam Wang, Shuo Liu, Weikai Huang, Xiang Fan, Wei-Chuan Tsai, Shirui Chen, Yi Ru Wang, Shanli Xing, Jaemin Cho, Jae Sung Park, Ainaz Eftekhar, Peter Sushko, Karen Farley, Angad Wadhwa, Cole Harrison, Winson Han, Ying-Chun Lee, Eli VanderBilt, Rose Hendrix, Suveen Ellawela, Lucas Ngoo, Joyce Chai, Zhongzheng Ren, Ali Farhadi, Dieter Fox, Ranjay Krishna
cs.AI

Zusammenfassung

Vision-Language-Action (VLA)-Modelle zielen darauf ab, einen einzigen universellen Controller für Roboter bereitzustellen, doch die heutigen Systeme erfüllen die Kriterien für den realen Einsatz nicht. Spitzenmodelle sind geschlossen, Open-Weight-Alternativen sind an teure Hardware gebunden, reasoning-augmentierte Policies haben prohibitive Latenzzeiten für ihre Grounding-Fähigkeit, und feinabgestimmte Erfolgsquoten bleiben unter der Schwelle für zuverlässige Nutzung. Wir stellen MolmoAct2 vor, ein vollständig offenes Action-Reasoning-Modell, das für den praktischen Einsatz entwickelt wurde und seinen Vorgänger in fünf Bereichen weiterentwickelt. Wir führen MolmoER ein, ein VLM-Backbone, das speziell für räumliches und embodied Reasoning trainiert wurde, auf einem 3,3-Millionen-Beispiele-Korpus mit einem "specialize-then-rehearse"-Rezept. Wir veröffentlichen drei neue Datensätze, die Low- bis Medium-Cost-Plattformen abdecken, darunter MolmoAct2-BimanualYAM – 720 Stunden teleoperierter bimanueller Trajektorien, die den größten offenen bimanuellen Datensatz darstellen – sowie qualitätsgefilterte Franka- (DROID) und SO100/101-Subsets. Wir stellen OpenFAST bereit, einen Open-Weight-, Open-DATA-Action-Tokenizer, der auf Millionen von Trajektorien über fünf Roboterplattformen trainiert wurde. Wir gestalten die Architektur neu, um einen Flow-Matching-Experten für kontinuierliche Aktionen via per-layer KV-Cache-Konditionierung auf ein diskret-token-basiertes VLM zu pfropfen. Schließlich schlagen wir MolmoThink vor, eine Adaptive-Depth-Reasoning-Variante, die Tiefentoken nur für Szenenbereiche neu vorhersagt, die sich zwischen Zeitschritten ändern, und so geometrisches Grounding bei einem Bruchteil der bisherigen Latenz beibehält. In der bisher umfassendsten empirischen Studie eines offenen VLA-Modells, die 7 Simulations- und Realwelt-Benchmarks umspannt, übertrifft MolmoAct2 starke Baselines, einschließlich Pi-05, während MolmoER GPT-5 und Gemini Robotics ER-1.5 über 13 Embodied-Reasoning-Benchmarks hinweg übertrifft. Wir veröffentlichen Modellgewichte, Trainingscode und vollständige Trainingsdaten. Projektseite: https://allenai.org/blog/molmoact2
English
Vision-Language-Action (VLA) models aim to provide a single generalist controller for robots, but today's systems fall short on the criteria that matter for real-world deployment. Frontier models are closed, open-weight alternatives are tied to expensive hardware, reasoning-augmented policies pay prohibitive latency for their grounding, and fine-tuned success rates remain below the threshold for dependable use. We present MolmoAct2, a fully open action reasoning model built for practical deployment, advancing its predecessor along five axes. We introduce MolmoER, a VLM backbone specialized for spatial and embodied reasoning, trained on a 3.3M-sample corpus with a specialize-then-rehearse recipe. We release three new datasets spanning low-to-medium cost platforms, including MolmoAct2-BimanualYAM, 720 hours of teleoperated bimanual trajectories that constitute the largest open bimanual dataset to date, together with quality-filtered Franka (DROID) and SO100/101 subsets. We provide OpenFAST, an open-weight, open-data action tokenizer trained on millions of trajectories across five embodiments. We redesign the architecture to graft a flow-matching continuous-action expert onto a discrete-token VLM via per-layer KV-cache conditioning. Finally, we propose MolmoThink, an adaptive-depth reasoning variant that re-predicts depth tokens only for scene regions that change between timesteps, retaining geometric grounding at a fraction of prior latency. In the most extensive empirical study of any open VLA to date, spanning 7 simulation and real-world benchmarks, MolmoAct2 outperforms strong baselines including Pi-05, while MolmoER surpasses GPT-5 and Gemini Robotics ER-1.5 across 13 embodied-reasoning benchmarks. We release model weights, training code, and complete training data. Project page: https://allenai.org/blog/molmoact2
PDF1615May 6, 2026