ChatPaper.aiChatPaper

MolmoAct2: Modelos de Razonamiento de Acciones para Implementación en el Mundo Real

MolmoAct2: Action Reasoning Models for Real-world Deployment

May 4, 2026
Autores: Haoquan Fang, Jiafei Duan, Donovan Clay, Sam Wang, Shuo Liu, Weikai Huang, Xiang Fan, Wei-Chuan Tsai, Shirui Chen, Yi Ru Wang, Shanli Xing, Jaemin Cho, Jae Sung Park, Ainaz Eftekhar, Peter Sushko, Karen Farley, Angad Wadhwa, Cole Harrison, Winson Han, Ying-Chun Lee, Eli VanderBilt, Rose Hendrix, Suveen Ellawela, Lucas Ngoo, Joyce Chai, Zhongzheng Ren, Ali Farhadi, Dieter Fox, Ranjay Krishna
cs.AI

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) aspiran a proporcionar un controlador generalista único para robots, pero los sistemas actuales no cumplen con los criterios cruciales para un despliegue en el mundo real. Los modelos de vanguardia son cerrados, las alternativas de pesos abiertos están vinculadas a hardware costoso, las políticas aumentadas con razonamiento pagan una latencia prohibitiva por su fundamentación, y las tasas de éxito de los modelos ajustados permanecen por debajo del umbral para un uso fiable. Presentamos MolmoAct2, un modelo de razonamiento de acción completamente abierto construido para un despliegue práctico, que avanza respecto a su predecesor en cinco ejes. Introducimos MolmoER, un modelo base VLM especializado en razonamiento espacial y encarnado, entrenado en un corpus de 3.3 millones de muestras con una receta de *especializar-y-luego-repasar*. Publicamos tres nuevos conjuntos de datos que abarcan plataformas de bajo a medio coste, incluyendo MolmoAct2-BimanualYAM, 720 horas de trayectorias bimanuales teleoperadas que constituyen el mayor conjunto de datos bimanual abierto hasta la fecha, junto con subconjuntos filtrados por calidad de Franka (DROID) y SO100/101. Proporcionamos OpenFAST, un tokenizador de acción de pesos y datos abiertos entrenado en millones de trayectorias a través de cinco encarnaciones. Rediseñamos la arquitectura para injertar un experto en acciones continuas por *flow-matching* en un VLM de tokens discretos mediante acondicionamiento de caché KV por capa. Finalmente, proponemos MolmoThink, una variante de razonamiento de profundidad adaptativa que re-predice los tokens de profundidad solo para las regiones de la escena que cambian entre pasos de tiempo, conservando la fundamentación geométrica con una fracción de la latencia anterior. En el estudio empírico más extenso de cualquier VLA abierto hasta la fecha, abarcando 7 benchmarks de simulación y mundo real, MolmoAct2 supera a líneas de base sólidas como Pi-05, mientras que MolmoER supera a GPT-5 y Gemini Robotics ER-1.5 en 13 benchmarks de razonamiento encarnado. Publicamos los pesos del modelo, el código de entrenamiento y los datos completos de entrenamiento. Página del proyecto: https://allenai.org/blog/molmoact2
English
Vision-Language-Action (VLA) models aim to provide a single generalist controller for robots, but today's systems fall short on the criteria that matter for real-world deployment. Frontier models are closed, open-weight alternatives are tied to expensive hardware, reasoning-augmented policies pay prohibitive latency for their grounding, and fine-tuned success rates remain below the threshold for dependable use. We present MolmoAct2, a fully open action reasoning model built for practical deployment, advancing its predecessor along five axes. We introduce MolmoER, a VLM backbone specialized for spatial and embodied reasoning, trained on a 3.3M-sample corpus with a specialize-then-rehearse recipe. We release three new datasets spanning low-to-medium cost platforms, including MolmoAct2-BimanualYAM, 720 hours of teleoperated bimanual trajectories that constitute the largest open bimanual dataset to date, together with quality-filtered Franka (DROID) and SO100/101 subsets. We provide OpenFAST, an open-weight, open-data action tokenizer trained on millions of trajectories across five embodiments. We redesign the architecture to graft a flow-matching continuous-action expert onto a discrete-token VLM via per-layer KV-cache conditioning. Finally, we propose MolmoThink, an adaptive-depth reasoning variant that re-predicts depth tokens only for scene regions that change between timesteps, retaining geometric grounding at a fraction of prior latency. In the most extensive empirical study of any open VLA to date, spanning 7 simulation and real-world benchmarks, MolmoAct2 outperforms strong baselines including Pi-05, while MolmoER surpasses GPT-5 and Gemini Robotics ER-1.5 across 13 embodied-reasoning benchmarks. We release model weights, training code, and complete training data. Project page: https://allenai.org/blog/molmoact2
PDF1615May 6, 2026