LabVLA: Fundamentação de Modelos Visão-Linguagem-Ação em Laboratórios Científicos

Resumo

Laboratórios científicos recorrem cada vez mais a sistemas de IA para raciocinar sobre experimentos, mas o ato físico de fazer ciência permanece em grande parte fora de seu alcance. A IA pode auxiliar na leitura de literatura, na geração de hipóteses e no planejamento de protocolos, porém a execução desses protocolos na bancada ainda exige um operador humano. Modelos Visão-Linguagem-Ação (VLA) oferecem uma possível interface entre protocolos escritos e execução robótica, mas as políticas existentes são treinadas principalmente em demonstrações domésticas e de bancada, raramente encontrando os instrumentos, líquidos transparentes ou fluxos de trabalho de protocolos fixos presentes em laboratórios científicos. Fechar essa lacuna exige tanto supervisão específica para laboratórios quanto uma estrutura de aprendizado unificada que possa acomodar as diversas incorporações robóticas usadas para executar protocolos experimentais. Identificamos, portanto, os dados e a incorporação como gargalos centrais, juntamente com o design do modelo. Para abordar o lado dos dados, construímos o RoboGenesis, um motor de dados e fluxo de trabalho baseado em simulação que compõe fluxos de trabalho laboratoriais configurados a partir de habilidades atômicas, valida e filtra rollouts, e exporta demonstrações estruturadas para perfis robóticos suportados. No lado da política, apresentamos o LabVLA, treinado com uma receita de dois estágios: o pré-treinamento de tokens de ação FAST torna o backbone Qwen3-VL-4B-Instruct consciente de ações antes de qualquer controle contínuo ser aprendido, e o pós-treinamento por correspondência de fluxo anexa um especialista em ação DiT sob isolamento de conhecimento. No benchmark LabUtopia, o LabVLA atinge a maior taxa média de sucesso entre todas as linhas de base avaliadas, tanto em configurações dentro da distribuição quanto fora dela.

English

Scientific laboratories increasingly rely on AI systems to reason about experiments, but the physical act of doing science remains largely outside their reach. AI can help read literature, generate hypotheses, and plan protocols, yet the execution of those protocols at the bench still requires a human operator. Vision-Language-Action (VLA) models provide one possible interface between written protocols and robot execution, but existing policies are trained mostly on household and tabletop demonstrations and rarely encounter the instruments, transparent liquids, or fixed protocol workflows found in scientific laboratories. Closing this gap requires both laboratory-specific supervision and a unified learning framework that can accommodate the diverse robot embodiments used to execute experimental protocols. We therefore identify data and embodiment as central bottlenecks alongside model design. To address the data side, we build RoboGenesis, a simulation-based workflow and data engine that composes configured laboratory workflows from atomic skills, validates and filters rollouts, and exports structured demonstrations across supported robot profiles. On the policy side, we present LabVLA, trained with a two-stage recipe: FAST action token pretraining first makes the Qwen3-VL-4B-Instruct backbone action aware before any continuous control is learned, and flow matching posttraining then attaches a DiT action expert under knowledge insulation. On the LabUtopia benchmark, LabVLA achieves the highest average success rate among all evaluated baselines under both in-distribution and out-of-distribution settings.