SimVLA: Uma Linha de Base Simples de VLA para Manipulação Robótica

Resumo

Os modelos Visão-Linguagem-Ação (VLA) surgiram como um paradigma promissor para a manipulação robótica de propósito geral, aproveitando o pré-treinamento em larga escala para alcançar um desempenho robusto. A área evoluiu rapidamente com a incorporação de prévias espaciais e diversas inovações arquiteturais. No entanto, esses avanços são frequentemente acompanhados por receitas de treinamento e detalhes de implementação variados, o que pode dificultar a identificação da fonte precisa dos ganhos empíricos. Neste trabalho, apresentamos o SimVLA, uma linha de base simplificada concebida para estabelecer um ponto de referência transparente para a pesquisa em VLA. Ao desacoplar estritamente a percepção do controle, utilizando um *backbone* padrão de visão computacional e linguagem e um cabeçalho de ação leve, e ao padronizar dinâmicas críticas de treinamento, demonstramos que um design minimalista pode alcançar desempenho de última geração. Apesar de possuir apenas 0,5 bilhão de parâmetros, o SimVLA supera modelos com múltiplos bilhões de parâmetros em *benchmarks* padrão de simulação, sem pré-treinamento em robôs. O SimVLA também atinge um desempenho em robô real equivalente ao do pi0.5. Nossos resultados estabelecem o SimVLA como uma linha de base robusta e reproduzível que permite a atribuição clara de ganhos empíricos a futuras inovações arquiteturais. Website: https://frontierrobo.github.io/SimVLA

English

Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robotic manipulation, leveraging large-scale pre-training to achieve strong performance. The field has rapidly evolved with additional spatial priors and diverse architectural innovations. However, these advancements are often accompanied by varying training recipes and implementation details, which can make it challenging to disentangle the precise source of empirical gains. In this work, we introduce SimVLA, a streamlined baseline designed to establish a transparent reference point for VLA research. By strictly decoupling perception from control, using a standard vision-language backbone and a lightweight action head, and standardizing critical training dynamics, we demonstrate that a minimal design can achieve state-of-the-art performance. Despite having only 0.5B parameters, SimVLA outperforms multi-billion-parameter models on standard simulation benchmarks without robot pretraining. SimVLA also reaches on-par real-robot performance compared to pi0.5. Our results establish SimVLA as a robust, reproducible baseline that enables clear attribution of empirical gains to future architectural innovations. Website: https://frontierrobo.github.io/SimVLA

SimVLA: Uma Linha de Base Simples de VLA para Manipulação Robótica

SimVLA: A Simple VLA Baseline for Robotic Manipulation

Resumo

Support