SimVLA: Una Línea Base Sencilla de VLA para Manipulación Robótica

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) han surgido como un paradigma prometedor para la manipulación robótica de propósito general, aprovechando el preentrenamiento a gran escala para lograr un alto rendimiento. El campo ha evolucionado rápidamente con la incorporación de priores espaciales y diversas innovaciones arquitectónicas. Sin embargo, estos avances suelen ir acompañados de recetas de entrenamiento y detalles de implementación variables, lo que puede dificultar identificar la fuente precisa de las mejoras empíricas. En este trabajo, presentamos SimVLA, una línea base simplificada diseñada para establecer un punto de referencia transparente en la investigación de VLA. Al desacoplar estrictamente la percepción del control, utilizando un backbone estándar de visión-lenguaje y un cabezal de acción ligero, y estandarizando la dinámica crítica del entrenamiento, demostramos que un diseño minimalista puede alcanzar un rendimiento de vanguardia. A pesar de tener solo 0.5B de parámetros, SimVLA supera a modelos de miles de millones de parámetros en benchmarks estándar de simulación sin preentrenamiento en robots. SimVLA también alcanza un rendimiento comparable en robots reales con respecto a pi0.5. Nuestros resultados establecen a SimVLA como una línea base robusta y reproducible que permite atribuir claramente las mejoras empíricas a futuras innovaciones arquitectónicas. Sitio web: https://frontierrobo.github.io/SimVLA

English

Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robotic manipulation, leveraging large-scale pre-training to achieve strong performance. The field has rapidly evolved with additional spatial priors and diverse architectural innovations. However, these advancements are often accompanied by varying training recipes and implementation details, which can make it challenging to disentangle the precise source of empirical gains. In this work, we introduce SimVLA, a streamlined baseline designed to establish a transparent reference point for VLA research. By strictly decoupling perception from control, using a standard vision-language backbone and a lightweight action head, and standardizing critical training dynamics, we demonstrate that a minimal design can achieve state-of-the-art performance. Despite having only 0.5B parameters, SimVLA outperforms multi-billion-parameter models on standard simulation benchmarks without robot pretraining. SimVLA also reaches on-par real-robot performance compared to pi0.5. Our results establish SimVLA as a robust, reproducible baseline that enables clear attribution of empirical gains to future architectural innovations. Website: https://frontierrobo.github.io/SimVLA

SimVLA: Una Línea Base Sencilla de VLA para Manipulación Robótica

SimVLA: A Simple VLA Baseline for Robotic Manipulation

Resumen

Support