LabVLA: Gronding van Visie-Taal-Actie-modellen in Wetenschappelijke Laboratoria

Samenvatting

Wetenschappelijke laboratoria vertrouwen steeds vaker op AI-systemen om over experimenten te redeneren, maar de fysieke handeling van het wetenschap bedrijven blijft grotendeels buiten hun bereik. AI kan helpen bij het lezen van literatuur, het genereren van hypothesen en het plannen van protocollen, maar de uitvoering van die protocollen aan de labtafel vereist nog steeds een menselijke operator. Visie-Taal-Actie (VTA)-modellen bieden een mogelijke interface tussen geschreven protocollen en robotuitvoering, maar bestaande beleidslijnen worden voornamelijk getraind op huishoudelijke en tafelblad-demonstraties en komen zelden in aanraking met de instrumenten, transparante vloeistoffen of vaste protocolworkflows die in wetenschappelijke laboratoria worden aangetroffen. Het overbruggen van deze kloof vereist zowel laboratoriespecifiek toezicht als een uniform leerkader dat tegemoet kan komen aan de diverse robotuitvoeringsvormen die worden gebruikt om experimentele protocollen uit te voeren. Daarom identificeren we data en belichaming als centrale knelpunten naast modelontwerp. Om de datakant aan te pakken, bouwen we RoboGenesis, een simulatiegebaseerde workflow en data-engine die geconfigureerde laboratoriumworkflows samenstelt uit atomaire vaardigheden, rollouts valideert en filtert, en gestructureerde demonstraties exporteert voor ondersteunde robotprofielen. Aan de beleidskant presenteren we LabVLA, getraind met een tweetrapsrecept: FAST-actie-token-voorbereiding maakt eerst de Qwen3-VL-4B-Instruct-backbone actiebewust voordat er continue controle wordt geleerd, en flow matching natraining koppelt vervolgens een DiT-actie-expert onder kennisisolatie. Op de LabUtopia-benchmark behaalt LabVLA het hoogste gemiddelde slagingspercentage van alle geëvalueerde baselines onder zowel in-distributie- als out-of-distributie-instellingen.

English

Scientific laboratories increasingly rely on AI systems to reason about experiments, but the physical act of doing science remains largely outside their reach. AI can help read literature, generate hypotheses, and plan protocols, yet the execution of those protocols at the bench still requires a human operator. Vision-Language-Action (VLA) models provide one possible interface between written protocols and robot execution, but existing policies are trained mostly on household and tabletop demonstrations and rarely encounter the instruments, transparent liquids, or fixed protocol workflows found in scientific laboratories. Closing this gap requires both laboratory-specific supervision and a unified learning framework that can accommodate the diverse robot embodiments used to execute experimental protocols. We therefore identify data and embodiment as central bottlenecks alongside model design. To address the data side, we build RoboGenesis, a simulation-based workflow and data engine that composes configured laboratory workflows from atomic skills, validates and filters rollouts, and exports structured demonstrations across supported robot profiles. On the policy side, we present LabVLA, trained with a two-stage recipe: FAST action token pretraining first makes the Qwen3-VL-4B-Instruct backbone action aware before any continuous control is learned, and flow matching posttraining then attaches a DiT action expert under knowledge insulation. On the LabUtopia benchmark, LabVLA achieves the highest average success rate among all evaluated baselines under both in-distribution and out-of-distribution settings.