LabVLA: Verankerung von Vision-Sprache-Aktion-Modellen in wissenschaftlichen Laboren

Zusammenfassung

Wissenschaftliche Labore nutzen zunehmend KI-Systeme zur Versuchsplanung, doch der physische Akt des wissenschaftlichen Arbeitens bleibt ihnen weitgehend verwehrt. KI kann beim Lesen von Fachliteratur, der Hypothesengenerierung und der Protokollplanung helfen, die Ausführung dieser Protokolle am Labortisch erfordert jedoch weiterhin einen menschlichen Bediener. Vision-Language-Action (VLA)-Modelle bieten eine mögliche Schnittstelle zwischen schriftlichen Protokollen und der Roboterausführung, doch bestehende Modelle werden vorwiegend mit Demonstrationen aus Haushalten und auf Tischplatten trainiert und begegnen selten den Instrumenten, transparenten Flüssigkeiten oder festgelegten Protokollabläufen, die in wissenschaftlichen Laboren vorkommen. Um diese Lücke zu schließen, bedarf es sowohl Laborspezifischer Überwachung als auch eines einheitlichen Lernrahmens, der die unterschiedlichen Roboterausführungen zur Durchführung experimenteller Protokolle abdecken kann. Daher identifizieren wir Daten und Verkörperung als zentrale Engpässe neben dem Modelldesign. Zur Lösung der Datenseite entwickeln wir RoboGenesis, einen simulationsbasierten Workflow und eine Daten-Engine, die konfigurierte Laborabläufe aus atomaren Fähigkeiten zusammensetzt, Rollouts validiert und filtert sowie strukturierte Demonstrationen für unterstützte Roboterprofile exportiert. Auf der Modellebene präsentieren wir LabVLA, trainiert mit einem zweistufigen Rezept: Ein FAST-Aktions-Token-Vortraining macht zunächst das Qwen3-VL-4B-Instruct-Backbone handlungsbewusst, bevor kontinuierliche Steuerung erlernt wird, und ein Flow-Matching-Posttraining fügt dann unter Wissensisolierung einen DiT-Aktions-Experten an. Im LabUtopia-Benchmark erzielt LabVLA unter allen evaluierten Basislinien sowohl bei verteilungsinternen als auch bei verteilungsexternen Einstellungen die höchste durchschnittliche Erfolgsrate.

English

Scientific laboratories increasingly rely on AI systems to reason about experiments, but the physical act of doing science remains largely outside their reach. AI can help read literature, generate hypotheses, and plan protocols, yet the execution of those protocols at the bench still requires a human operator. Vision-Language-Action (VLA) models provide one possible interface between written protocols and robot execution, but existing policies are trained mostly on household and tabletop demonstrations and rarely encounter the instruments, transparent liquids, or fixed protocol workflows found in scientific laboratories. Closing this gap requires both laboratory-specific supervision and a unified learning framework that can accommodate the diverse robot embodiments used to execute experimental protocols. We therefore identify data and embodiment as central bottlenecks alongside model design. To address the data side, we build RoboGenesis, a simulation-based workflow and data engine that composes configured laboratory workflows from atomic skills, validates and filters rollouts, and exports structured demonstrations across supported robot profiles. On the policy side, we present LabVLA, trained with a two-stage recipe: FAST action token pretraining first makes the Qwen3-VL-4B-Instruct backbone action aware before any continuous control is learned, and flow matching posttraining then attaches a DiT action expert under knowledge insulation. On the LabUtopia benchmark, LabVLA achieves the highest average success rate among all evaluated baselines under both in-distribution and out-of-distribution settings.