ChatPaper.aiChatPaper

MolmoAct2 : Modèles de raisonnement d'action pour un déploiement en conditions réelles

MolmoAct2: Action Reasoning Models for Real-world Deployment

May 4, 2026
Auteurs: Haoquan Fang, Jiafei Duan, Donovan Clay, Sam Wang, Shuo Liu, Weikai Huang, Xiang Fan, Wei-Chuan Tsai, Shirui Chen, Yi Ru Wang, Shanli Xing, Jaemin Cho, Jae Sung Park, Ainaz Eftekhar, Peter Sushko, Karen Farley, Angad Wadhwa, Cole Harrison, Winson Han, Ying-Chun Lee, Eli VanderBilt, Rose Hendrix, Suveen Ellawela, Lucas Ngoo, Joyce Chai, Zhongzheng Ren, Ali Farhadi, Dieter Fox, Ranjay Krishna
cs.AI

Résumé

Les modèles Vision-Langage-Action (VLA) visent à fournir un contrôleur généraliste unique pour les robots, mais les systèmes actuels ne répondent pas aux critères essentiels pour un déploiement réel. Les modèles de pointe sont fermés, les alternatives à poids ouverts sont liées à du matériel coûteux, les politiques à raisonnement augmenté paient une latence prohibitive pour leur ancrage, et les taux de succès après fine-tuning restent en deçà du seuil nécessaire à une utilisation fiable. Nous présentons MolmoAct2, un modèle de raisonnement actionnel entièrement ouvert conçu pour un déploiement pratique, améliorant son prédécesseur sur cinq axes. Nous introduisons MolmoER, un modèle de base VLM spécialisé dans le raisonnement spatial et incarné, entraîné sur un corpus de 3,3 millions d'échantillons selon une méthode de spécialisation puis de répétition. Nous publions trois nouveaux jeux de données couvrant des plateformes à coût faible à moyen, incluant MolmoAct2-BimanualYAM, 720 heures de trajectoires bimanuelles téléopérées qui constituent le plus grand jeu de données bimanuelles ouvert à ce jour, ainsi que des sous-ensembles filtrés de Franka (DROID) et SO100/101. Nous proposons OpenFAST, un tokeniseur d'actions à poids et données ouvertes, entraîné sur des millions de trajectoires couvrant cinq incarnations matérielles. Nous repensons l'architecture pour greffer un expert en actions continues par appariement de flux sur un VLM à tokens discrets via un conditionnement du cache KV par couche. Enfin, nous proposons MolmoThink, une variante à raisonnement à profondeur adaptative qui ne re-prédit les tokens de profondeur que pour les régions de la scène qui changent entre les pas de temps, conservant l'ancrage géométrique pour une fraction de la latence antérieure. Dans l'étude empirique la plus exhaustive jamais réalisée sur un VLA ouvert, couvrant 7 benchmarks en simulation et dans le monde réel, MolmoAct2 surpasse des bases de référence solides incluant Pi-05, tandis que MolmoER dépasse GPT-5 et Gemini Robotics ER-1.5 sur 13 benchmarks de raisonnement incarné. Nous publions les poids des modèles, le code d'entraînement et l'intégralité des données d'entraînement. Page du projet : https://allenai.org/blog/molmoact2
English
Vision-Language-Action (VLA) models aim to provide a single generalist controller for robots, but today's systems fall short on the criteria that matter for real-world deployment. Frontier models are closed, open-weight alternatives are tied to expensive hardware, reasoning-augmented policies pay prohibitive latency for their grounding, and fine-tuned success rates remain below the threshold for dependable use. We present MolmoAct2, a fully open action reasoning model built for practical deployment, advancing its predecessor along five axes. We introduce MolmoER, a VLM backbone specialized for spatial and embodied reasoning, trained on a 3.3M-sample corpus with a specialize-then-rehearse recipe. We release three new datasets spanning low-to-medium cost platforms, including MolmoAct2-BimanualYAM, 720 hours of teleoperated bimanual trajectories that constitute the largest open bimanual dataset to date, together with quality-filtered Franka (DROID) and SO100/101 subsets. We provide OpenFAST, an open-weight, open-data action tokenizer trained on millions of trajectories across five embodiments. We redesign the architecture to graft a flow-matching continuous-action expert onto a discrete-token VLM via per-layer KV-cache conditioning. Finally, we propose MolmoThink, an adaptive-depth reasoning variant that re-predicts depth tokens only for scene regions that change between timesteps, retaining geometric grounding at a fraction of prior latency. In the most extensive empirical study of any open VLA to date, spanning 7 simulation and real-world benchmarks, MolmoAct2 outperforms strong baselines including Pi-05, while MolmoER surpasses GPT-5 and Gemini Robotics ER-1.5 across 13 embodied-reasoning benchmarks. We release model weights, training code, and complete training data. Project page: https://allenai.org/blog/molmoact2
PDF1615May 6, 2026