RoboAlign : Apprentissage du raisonnement en temps de test pour l'alignement langage-action dans les modèles vision-langage-action
RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models
March 22, 2026
Auteurs: Dongyoung Kim, Sumin Park, Woomin Song, Seungku Kim, Taeyoung Kim, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo
cs.AI
Résumé
L'amélioration du raisonnement incarné dans les modèles multimodaux de grande taille (MLLM) est essentielle pour développer des modèles vision-langage-action (VLA) capables de traduire facilement la compréhension multimodale en actions de bas niveau. En conséquence, des travaux récents ont exploré l'amélioration du raisonnement incarné dans les MLLM via un apprentissage supervisé de type question-réponse visuelle. Cependant, ces approches entraîneraient une instabilité des performances des VLA, ne produisant souvent que des gains marginaux, voire négatifs. Dans cet article, nous proposons un cadre d'entraînement MLLM plus systématique, RoboAlign, qui améliore de manière fiable les performances des VLA. Notre idée clé est d'échantillonner des tokens d'action via un raisonnement en langage naturel zero-shot, puis d'affiner ce raisonnement à l'aide de l'apprentissage par renforcement (RL) pour améliorer la précision des actions. Ainsi, RoboAlign comble le déficit de modalité entre le langage et les actions de bas niveau dans les MLLM et facilite le transfert de connaissances du MLLM vers le VLA. Pour valider l'efficacité de RoboAlign, nous entraînons des VLA en ajoutant une tête d'action basée sur la diffusion à un modèle MLLM de base et nous les évaluons sur les principaux benchmarks robotiques. Fait remarquable, en réalisant un alignement par RL après un Fine-Tuning Supervisé (SFT) avec moins de 1 % des données, RoboAlign obtient des améliorations de performances de 17,5 %, 18,9 % et 106,6 % par rapport aux lignes de base SFT sur les environnements LIBERO, CALVIN et en conditions réelles, respectivement.
English
Improving embodied reasoning in multimodal-large-language models (MLLMs) is essential for building vision-language-action models (VLAs) on top of them to readily translate multimodal understanding into low-level actions. Accordingly, recent work has explored enhancing embodied reasoning in MLLMs through supervision of vision-question-answering type. However, these approaches have been reported to result in unstable VLA performance, often yielding only marginal or even negative gains. In this paper, we propose a more systematic MLLM training framework RoboAlign that reliably improves VLA performance. Our key idea is to sample action tokens via zero-shot natural language reasoning and refines this reasoning using reinforcement learning (RL) to improve action accuracy. As a result, RoboAlign bridges the modality gap between language and low-level actions in MLLMs, and facilitate knowledge transfer from MLLM to VLA. To validate the effectiveness of RoboAlign, we train VLAs by adding a diffusion-based action head on top of an MLLM backbone and evaluate them on major robotics benchmarks. Remarkably, by performing RL-based alignment after SFT using less than 1\% of the data, RoboAlign achieves performance improvements of 17.5\%, 18.9\%, and 106.6\% over SFT baselines on LIBERO, CALVIN, and real-world environments, respectively.