LabVLA : Ancrer les modèles vision-langage-action dans les laboratoires scientifiques

Résumé

Les laboratoires scientifiques s'appuient de plus en plus sur des systèmes d'IA pour raisonner sur les expériences, mais l'acte physique de faire de la science reste largement hors de leur portée. L'IA peut aider à lire la littérature, générer des hypothèses et planifier des protocoles, mais l'exécution de ces protocoles sur la paillasse nécessite encore un opérateur humain. Les modèles Vision-Langage-Action (VLA) offrent une interface possible entre les protocoles écrits et l'exécution robotique, mais les politiques existantes sont principalement entraînées sur des démonstrations domestiques et de table, et rencontrent rarement les instruments, les liquides transparents ou les workflows protocolaires fixes que l'on trouve dans les laboratoires scientifiques. Combler cet écart nécessite à la fois une supervision spécifique au laboratoire et un cadre d'apprentissage unifié capable d'accueillir les diverses incarnations robotiques utilisées pour exécuter des protocoles expérimentaux. Nous identifions donc les données et l'incarnation comme des goulots d'étranglement centraux, aux côtés de la conception du modèle. Pour résoudre le problème des données, nous construisons RoboGenesis, un workflow basé sur la simulation et un moteur de données qui compose des workflows de laboratoire configurés à partir de compétences atomiques, valide et filtre les déploiements, et exporte des démonstrations structurées pour les profils robotiques pris en charge. Du côté de la politique, nous présentons LabVLA, entraîné selon une recette en deux étapes : le pré-entraînement par jetons d'action FAST rend d'abord le backbone Qwen3-VL-4B-Instruct conscient des actions avant tout apprentissage de contrôle continu, puis le post-entraînement par appariement de flux attache un expert en actions DiT sous isolation des connaissances. Sur le référentiel LabUtopia, LabVLA atteint le taux de réussite moyen le plus élevé parmi toutes les lignes de base évaluées, tant dans les configurations intra-distribution que hors distribution.

English

Scientific laboratories increasingly rely on AI systems to reason about experiments, but the physical act of doing science remains largely outside their reach. AI can help read literature, generate hypotheses, and plan protocols, yet the execution of those protocols at the bench still requires a human operator. Vision-Language-Action (VLA) models provide one possible interface between written protocols and robot execution, but existing policies are trained mostly on household and tabletop demonstrations and rarely encounter the instruments, transparent liquids, or fixed protocol workflows found in scientific laboratories. Closing this gap requires both laboratory-specific supervision and a unified learning framework that can accommodate the diverse robot embodiments used to execute experimental protocols. We therefore identify data and embodiment as central bottlenecks alongside model design. To address the data side, we build RoboGenesis, a simulation-based workflow and data engine that composes configured laboratory workflows from atomic skills, validates and filters rollouts, and exports structured demonstrations across supported robot profiles. On the policy side, we present LabVLA, trained with a two-stage recipe: FAST action token pretraining first makes the Qwen3-VL-4B-Instruct backbone action aware before any continuous control is learned, and flow matching posttraining then attaches a DiT action expert under knowledge insulation. On the LabUtopia benchmark, LabVLA achieves the highest average success rate among all evaluated baselines under both in-distribution and out-of-distribution settings.