RoboAlign: Aprendizaje de Razonamiento en Tiempo de Prueba para la Alineación Lenguaje-Acción en Modelos Visión-Lenguaje-Acción

Resumen

Mejorar el razonamiento incorporado en modelos lingüísticos multimodales de gran escala (MLLMs) es esencial para construir modelos de visión-lenguaje-acción (VLAs) sobre ellos, permitiendo traducir fácilmente la comprensión multimodal en acciones de bajo nivel. En consecuencia, trabajos recientes han explorado la mejora del razonamiento incorporado en MLLMs mediante supervisión del tipo pregunta-respuesta visual. Sin embargo, se ha reportado que estos enfoques resultan en un rendimiento inestable de los VLAs, a menudo produciendo solo mejoras marginales o incluso negativas. En este artículo, proponemos un marco de entrenamiento de MLLMs más sistemático llamado RoboAlign que mejora de manera confiable el rendimiento de los VLAs. Nuestra idea clave es muestrear tokens de acción mediante razonamiento de lenguaje natural de cero disparos y refinar este razonamiento utilizando aprendizaje por refuerzo (RL) para mejorar la precisión de las acciones. Como resultado, RoboAlign salva la brecha de modalidad entre el lenguaje y las acciones de bajo nivel en los MLLMs, y facilita la transferencia de conocimiento del MLLM al VLA. Para validar la efectividad de RoboAlign, entrenamos VLAs añadiendo un cabezal de acción basado en difusión sobre una arquitectura base de MLLM y los evaluamos en los principales puntos de referencia de robótica. Notablemente, al realizar la alineación basada en RL después de SFT utilizando menos del 1\% de los datos, RoboAlign logra mejoras de rendimiento del 17.5\%, 18.9\% y 106.6\% sobre las líneas base de SFT en los entornos LIBERO, CALVIN y del mundo real, respectivamente.

English

Improving embodied reasoning in multimodal-large-language models (MLLMs) is essential for building vision-language-action models (VLAs) on top of them to readily translate multimodal understanding into low-level actions. Accordingly, recent work has explored enhancing embodied reasoning in MLLMs through supervision of vision-question-answering type. However, these approaches have been reported to result in unstable VLA performance, often yielding only marginal or even negative gains. In this paper, we propose a more systematic MLLM training framework RoboAlign that reliably improves VLA performance. Our key idea is to sample action tokens via zero-shot natural language reasoning and refines this reasoning using reinforcement learning (RL) to improve action accuracy. As a result, RoboAlign bridges the modality gap between language and low-level actions in MLLMs, and facilitate knowledge transfer from MLLM to VLA. To validate the effectiveness of RoboAlign, we train VLAs by adding a diffusion-based action head on top of an MLLM backbone and evaluate them on major robotics benchmarks. Remarkably, by performing RL-based alignment after SFT using less than 1\% of the data, RoboAlign achieves performance improvements of 17.5\%, 18.9\%, and 106.6\% over SFT baselines on LIBERO, CALVIN, and real-world environments, respectively.

RoboAlign: Aprendizaje de Razonamiento en Tiempo de Prueba para la Alineación Lenguaje-Acción en Modelos Visión-Lenguaje-Acción

RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models

Resumen

Support