VLANeXt : Recettes pour construire des modèles VLA robustes

Résumé

Suite à l'essor des grands modèles de fondation, les modèles Vision-Langage-Action (VLA) ont émergé, exploitant une compréhension visuelle et linguistique robuste pour l'apprentissage de politiques généralistes. Cependant, le paysage actuel des VLA reste fragmenté et exploratoire. Bien que de nombreuses équipes aient proposé leurs propres modèles VLA, les incohérences dans les protocoles d'entraînement et les cadres d'évaluation rendent difficile l'identification des choix de conception réellement déterminants. Pour structurer cet espace en évolution, nous réexaminons l'espace de conception des VLA dans le cadre d'un framework et d'un protocole d'évaluation unifiés. En partant d'un modèle VLA de base similaire à RT-2 et OpenVLA, nous disséquons systématiquement les choix de conception selon trois dimensions : les composants fondamentaux, les éléments essentiels de la perception et les perspectives de modélisation de l'action. De cette étude, nous tirons 12 conclusions clés qui forment ensemble une recette pratique pour construire des modèles VLA performants. Le résultat de cette exploration est un modèle simple mais efficace, VLANeXt. VLANeXt surpasse les méthodes état de l'art précédentes sur les benchmarks LIBERO et LIBERO-plus et démontre une forte généralisation dans des expériences en conditions réelles. Nous publierons une base de code unifiée et facile à utiliser qui servira de plateforme commune à la communauté pour reproduire nos résultats, explorer l'espace de conception et développer de nouvelles variantes de VLA sur une fondation partagée.

English

Following the rise of large foundation models, Vision-Language-Action models (VLAs) emerged, leveraging strong visual and language understanding for general-purpose policy learning. Yet, the current VLA landscape remains fragmented and exploratory. Although many groups have proposed their own VLA models, inconsistencies in training protocols and evaluation settings make it difficult to identify which design choices truly matter. To bring structure to this evolving space, we reexamine the VLA design space under a unified framework and evaluation setup. Starting from a simple VLA baseline similar to RT-2 and OpenVLA, we systematically dissect design choices along three dimensions: foundational components, perception essentials, and action modelling perspectives. From this study, we distill 12 key findings that together form a practical recipe for building strong VLA models. The outcome of this exploration is a simple yet effective model, VLANeXt. VLANeXt outperforms prior state-of-the-art methods on the LIBERO and LIBERO-plus benchmarks and demonstrates strong generalization in real-world experiments. We will release a unified, easy-to-use codebase that serves as a common platform for the community to reproduce our findings, explore the design space, and build new VLA variants on top of a shared foundation.

VLANeXt : Recettes pour construire des modèles VLA robustes

VLANeXt: Recipes for Building Strong VLA Models

Résumé

Support