SimVLA: Простая базовая модель VLA для роботизированного манипулирования

Аннотация

Модели «Vision-Language-Action» (VLA) стали перспективной парадигмой для робототехнического манипулирования общего назначения, использующей масштабное предварительное обучение для достижения высокой производительности. Эта область быстро развивается благодаря внедрению пространственных априорных знаний и разнообразных архитектурных инноваций. Однако эти достижения часто сопровождаются различными методиками обучения и деталями реализации, что затрудняет точное определение источника эмпирических улучшений. В данной работе мы представляем SimVLA — упрощенный базовый вариант, предназначенный для создания прозрачного ориентира в исследованиях VLA. Строго разделяя восприятие и управление, используя стандартную Vision-Language архитектуру и облегченный модуль действий, а также стандартизируя ключевые аспекты обучения, мы демонстрируем, что минималистичный дизайн может достигать наилучших результатов. Несмотря на наличие всего 0,5 млрд параметров, SimVLA превосходит модели с миллиардами параметров в стандартных симуляционных тестах без предварительного обучения на роботах. Кроме того, SimVLA демонстрирует сопоставимую с pi0.5 производительность на реальном роботе. Наши результаты устанавливают SimVLA как надежный, воспроизводимый базовый уровень, который позволяет четко соотносить будущие архитектурные инновации с эмпирическими улучшениями. Веб-сайт: https://frontierrobo.github.io/SimVLA

English

Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robotic manipulation, leveraging large-scale pre-training to achieve strong performance. The field has rapidly evolved with additional spatial priors and diverse architectural innovations. However, these advancements are often accompanied by varying training recipes and implementation details, which can make it challenging to disentangle the precise source of empirical gains. In this work, we introduce SimVLA, a streamlined baseline designed to establish a transparent reference point for VLA research. By strictly decoupling perception from control, using a standard vision-language backbone and a lightweight action head, and standardizing critical training dynamics, we demonstrate that a minimal design can achieve state-of-the-art performance. Despite having only 0.5B parameters, SimVLA outperforms multi-billion-parameter models on standard simulation benchmarks without robot pretraining. SimVLA also reaches on-par real-robot performance compared to pi0.5. Our results establish SimVLA as a robust, reproducible baseline that enables clear attribution of empirical gains to future architectural innovations. Website: https://frontierrobo.github.io/SimVLA

SimVLA: Простая базовая модель VLA для роботизированного манипулирования

SimVLA: A Simple VLA Baseline for Robotic Manipulation

Аннотация

Support