VLANeXt: Receitas para Construir Modelos VLA Robustos

Resumo

Após o surgimento dos grandes modelos de base, surgiram os modelos Visão-Linguagem-Ação (VLAs), que aproveitam a forte compreensão visual e linguística para o aprendizado de políticas de propósito geral. No entanto, o cenário atual dos VLAs permanece fragmentado e exploratório. Embora muitos grupos tenham proposto seus próprios modelos VLA, inconsistências nos protocolos de treinamento e configurações de avaliação dificultam a identificação de quais escolhas de projeto são realmente importantes. Para trazer estrutura a este espaço em evolução, reexaminamos o espaço de projeto dos VLAs sob um framework unificado e uma configuração de avaliação padronizada. Partindo de uma linha de base VLA simples, semelhante ao RT-2 e ao OpenVLA, dissecamos sistematicamente as escolhas de projeto ao longo de três dimensões: componentes fundamentais, elementos essenciais de percepção e perspectivas de modelagem de ações. A partir deste estudo, destilamos 12 descobertas-chave que, juntas, formam uma receita prática para a construção de modelos VLA robustos. O resultado desta exploração é um modelo simples, porém eficaz, o VLANeXt. O VLANeXt supera os métodos anteriores state-of-the-art nos benchmarks LIBERO e LIBERO-plus e demonstra forte generalização em experimentos do mundo real. Liberaremos uma base de código unificada e de fácil uso que servirá como uma plataforma comum para a comunidade reproduzir nossas descobertas, explorar o espaço de projeto e construir novas variantes de VLA sobre uma base compartilhada.

English

Following the rise of large foundation models, Vision-Language-Action models (VLAs) emerged, leveraging strong visual and language understanding for general-purpose policy learning. Yet, the current VLA landscape remains fragmented and exploratory. Although many groups have proposed their own VLA models, inconsistencies in training protocols and evaluation settings make it difficult to identify which design choices truly matter. To bring structure to this evolving space, we reexamine the VLA design space under a unified framework and evaluation setup. Starting from a simple VLA baseline similar to RT-2 and OpenVLA, we systematically dissect design choices along three dimensions: foundational components, perception essentials, and action modelling perspectives. From this study, we distill 12 key findings that together form a practical recipe for building strong VLA models. The outcome of this exploration is a simple yet effective model, VLANeXt. VLANeXt outperforms prior state-of-the-art methods on the LIBERO and LIBERO-plus benchmarks and demonstrates strong generalization in real-world experiments. We will release a unified, easy-to-use codebase that serves as a common platform for the community to reproduce our findings, explore the design space, and build new VLA variants on top of a shared foundation.

VLANeXt: Receitas para Construir Modelos VLA Robustos

VLANeXt: Recipes for Building Strong VLA Models

Resumo

Support