LabVLA: Fundamentación de Modelos de Visión-Lenguaje-Acción en Laboratorios Científicos

Resumen

Los laboratorios científicos dependen cada vez más de sistemas de inteligencia artificial para razonar sobre experimentos, pero el acto físico de hacer ciencia sigue estando en gran medida fuera de su alcance. La IA puede ayudar a leer literatura, generar hipótesis y planificar protocolos, sin embargo, la ejecución de dichos protocolos en el banco de laboratorio aún requiere un operador humano. Los modelos de Visión-Lenguaje-Acción (VLA) proporcionan una posible interfaz entre los protocolos escritos y la ejecución robótica, pero las políticas existentes se entrenan principalmente con demostraciones domésticas y de mesa, y rara vez se enfrentan a los instrumentos, líquidos transparentes o flujos de trabajo de protocolos fijos que se encuentran en los laboratorios científicos. Cerrar esta brecha requiere tanto supervisión específica de laboratorio como un marco de aprendizaje unificado que pueda acomodar las diversas configuraciones robóticas utilizadas para ejecutar protocolos experimentales. Por lo tanto, identificamos los datos y la configuración robótica como cuellos de botella centrales junto con el diseño del modelo. Para abordar el aspecto de los datos, construimos RoboGenesis, un flujo de trabajo basado en simulación y un motor de datos que compone flujos de trabajo de laboratorio configurados a partir de habilidades atómicas, valida y filtra los despliegues, y exporta demostraciones estructuradas para los perfiles robóticos compatibles. En el lado de las políticas, presentamos LabVLA, entrenado con una receta de dos etapas: el preentrenamiento de tokens de acción FAST primero hace que la columna vertebral Qwen3-VL-4B-Instruct sea consciente de la acción antes de aprender cualquier control continuo, y el postentrenamiento con flow matching luego adjunta un experto en acción DiT bajo aislamiento de conocimiento. En el punto de referencia LabUtopia, LabVLA logra la tasa de éxito promedio más alta entre todas las líneas base evaluadas tanto en configuraciones dentro de la distribución como fuera de la distribución.

English

Scientific laboratories increasingly rely on AI systems to reason about experiments, but the physical act of doing science remains largely outside their reach. AI can help read literature, generate hypotheses, and plan protocols, yet the execution of those protocols at the bench still requires a human operator. Vision-Language-Action (VLA) models provide one possible interface between written protocols and robot execution, but existing policies are trained mostly on household and tabletop demonstrations and rarely encounter the instruments, transparent liquids, or fixed protocol workflows found in scientific laboratories. Closing this gap requires both laboratory-specific supervision and a unified learning framework that can accommodate the diverse robot embodiments used to execute experimental protocols. We therefore identify data and embodiment as central bottlenecks alongside model design. To address the data side, we build RoboGenesis, a simulation-based workflow and data engine that composes configured laboratory workflows from atomic skills, validates and filters rollouts, and exports structured demonstrations across supported robot profiles. On the policy side, we present LabVLA, trained with a two-stage recipe: FAST action token pretraining first makes the Qwen3-VL-4B-Instruct backbone action aware before any continuous control is learned, and flow matching posttraining then attaches a DiT action expert under knowledge insulation. On the LabUtopia benchmark, LabVLA achieves the highest average success rate among all evaluated baselines under both in-distribution and out-of-distribution settings.