VLANeXt: Recetas para Construir Modelos VLA Robustos

Resumen

Tras el auge de los grandes modelos fundacionales, surgieron los modelos Visión-Lenguaje-Acción (VLA), que aprovechan la sólida comprensión visual y lingüística para el aprendizaje de políticas de propósito general. Sin embargo, el panorama actual de los VLA sigue siendo fragmentado y exploratorio. Aunque muchos grupos han propuesto sus propios modelos VLA, las inconsistencias en los protocolos de entrenamiento y las configuraciones de evaluación dificultan identificar qué decisiones de diseño son realmente cruciales. Para aportar estructura a este espacio en evolución, reexaminamos el espacio de diseño de los VLA bajo un marco unificado y una configuración de evaluación común. Partiendo de una línea base VLA simple similar a RT-2 y OpenVLA, diseccionamos sistemáticamente las decisiones de diseño en tres dimensiones: componentes fundamentales, elementos esenciales de percepción y perspectivas de modelado de acciones. De este estudio, extraemos 12 hallazgos clave que, en conjunto, constituyen una receta práctica para construir modelos VLA robustos. El resultado de esta exploración es un modelo simple pero efectivo, VLANeXt. VLANeXt supera a los métodos previos del estado del arte en los benchmarks LIBERO y LIBERO-plus y demuestra una fuerte generalización en experimentos del mundo real. Liberaremos una base de código unificada y fácil de usar que sirva como plataforma común para que la comunidad reproduzca nuestros hallazgos, explore el espacio de diseño y construya nuevas variantes de VLA sobre una base compartida.

English

Following the rise of large foundation models, Vision-Language-Action models (VLAs) emerged, leveraging strong visual and language understanding for general-purpose policy learning. Yet, the current VLA landscape remains fragmented and exploratory. Although many groups have proposed their own VLA models, inconsistencies in training protocols and evaluation settings make it difficult to identify which design choices truly matter. To bring structure to this evolving space, we reexamine the VLA design space under a unified framework and evaluation setup. Starting from a simple VLA baseline similar to RT-2 and OpenVLA, we systematically dissect design choices along three dimensions: foundational components, perception essentials, and action modelling perspectives. From this study, we distill 12 key findings that together form a practical recipe for building strong VLA models. The outcome of this exploration is a simple yet effective model, VLANeXt. VLANeXt outperforms prior state-of-the-art methods on the LIBERO and LIBERO-plus benchmarks and demonstrates strong generalization in real-world experiments. We will release a unified, easy-to-use codebase that serves as a common platform for the community to reproduce our findings, explore the design space, and build new VLA variants on top of a shared foundation.

VLANeXt: Recetas para Construir Modelos VLA Robustos

VLANeXt: Recipes for Building Strong VLA Models

Resumen

Support