LabVLA: Укоренение моделей видения-языка-действия в научных лабораториях

Аннотация

Научные лаборатории всё чаще полагаются на системы искусственного интеллекта для рассуждений об экспериментах, однако физическое выполнение научной работы остаётся в значительной степени вне их досягаемости. ИИ может помогать читать литературу, генерировать гипотезы и планировать протоколы, но выполнение этих протоколов на лабораторном столе всё ещё требует участия человека. Модели «зрение-язык-действие» (Vision-Language-Action, VLA) предлагают один из возможных интерфейсов между письменными протоколами и роботизированным выполнением, однако существующие политики обучаются преимущественно на бытовых и настольных демонстрациях и редко сталкиваются с приборами, прозрачными жидкостями или фиксированными рабочими процессами протоколов, встречающимися в научных лабораториях. Преодоление этого разрыва требует как специфической для лабораторий супервизии, так и единой обучающей платформы, способной accommodate различные роботизированные воплощения, используемые для выполнения экспериментальных протоколов. Поэтому мы определяем данные и воплощение как центральные узкие места наряду с дизайном модели. Для решения проблемы данных мы создаём RoboGenesis — симуляционный рабочий процесс и механизм обработки данных, который компонует настроенные лабораторные процессы из атомарных навыков, проверяет и фильтрует прогоны, а также экспортирует структурированные демонстрации для поддерживаемых профилей роботов. Со стороны политики мы представляем LabVLA, обученную с помощью двухэтапного рецепта: предварительное обучение токенам действий FAST сначала позволяет базовой модели Qwen3-VL-4B-Instruct осознавать действия до того, как будет изучено какое-либо непрерывное управление, а затем постобучение с согласованием потоков (flow matching) подключает эксперта по действиям DiT с изоляцией знаний. На эталонном тесте LabUtopia LabVLA достигает самой высокой средней доли успешных попыток среди всех оценённых базовых методов как в условиях внутри распределения, так и вне распределения.

English

Scientific laboratories increasingly rely on AI systems to reason about experiments, but the physical act of doing science remains largely outside their reach. AI can help read literature, generate hypotheses, and plan protocols, yet the execution of those protocols at the bench still requires a human operator. Vision-Language-Action (VLA) models provide one possible interface between written protocols and robot execution, but existing policies are trained mostly on household and tabletop demonstrations and rarely encounter the instruments, transparent liquids, or fixed protocol workflows found in scientific laboratories. Closing this gap requires both laboratory-specific supervision and a unified learning framework that can accommodate the diverse robot embodiments used to execute experimental protocols. We therefore identify data and embodiment as central bottlenecks alongside model design. To address the data side, we build RoboGenesis, a simulation-based workflow and data engine that composes configured laboratory workflows from atomic skills, validates and filters rollouts, and exports structured demonstrations across supported robot profiles. On the policy side, we present LabVLA, trained with a two-stage recipe: FAST action token pretraining first makes the Qwen3-VL-4B-Instruct backbone action aware before any continuous control is learned, and flow matching posttraining then attaches a DiT action expert under knowledge insulation. On the LabUtopia benchmark, LabVLA achieves the highest average success rate among all evaluated baselines under both in-distribution and out-of-distribution settings.