ChatPaper.aiChatPaper

NORA-1.5: Un Modelo Visión-Lenguaje-Acción Entrenado mediante Recompensas de Preferencia Basadas en Modelos del Mundo y Acciones

NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards

November 18, 2025
Autores: Chia-Yu Hung, Navonil Majumder, Haoyuan Deng, Liu Renhang, Yankang Ang, Amir Zadeh, Chuan Li, Dorien Herremans, Ziwei Wang, Soujanya Poria
cs.AI

Resumen

Los modelos visión-lenguaje-acción (VLA) han mostrado recientemente un rendimiento prometedor en diversas tareas de embodiment, pero aún adolecen de falta de fiabilidad y generalización, especialmente cuando se despliegan en diferentes embodiments o entornos del mundo real. En este trabajo, presentamos NORA-1.5, un modelo VLA construido a partir del backbone preentrenado NORA al que se añade un experto en acciones basado en flow matching. Esta mejora arquitectónica por sí sola produce ganancias sustanciales de rendimiento, permitiendo a NORA-1.5 superar a NORA y a varios modelos VLA de vanguardia en benchmarks tanto simulados como del mundo real. Para mejorar aún más la robustez y el éxito en las tareas, desarrollamos un conjunto de modelos de recompensa para el post-entrenamiento de políticas VLA. Nuestras recompensas combinan (i) un modelo del mundo (WM) condicionado por la acción que evalúa si las acciones generadas conducen hacia el objetivo deseado, y (ii) una heurística de desviación de la verdad fundamental (ground-truth) que distingue las buenas acciones de las malas. Utilizando estas señales de recompensa, construimos conjuntos de datos de preferencias y adaptamos NORA-1.5 a embodiments específicos mediante optimización directa de preferencias (DPO). Evaluaciones exhaustivas muestran que el post-entrenamiento guiado por recompensas mejora consistentemente el rendimiento tanto en entornos de simulación como en configuraciones con robots reales, demostrando ganancias significativas en la fiabilidad de los modelos VLA mediante modelos de recompensa simples pero efectivos. Nuestros hallazgos destacan a NORA-1.5 y al post-entrenamiento guiado por recompensas como una vía viable hacia agentes con embodiment más confiables y aptos para su despliegue en el mundo real.
English
Vision--language--action (VLA) models have recently shown promising performance on a variety of embodied tasks, yet they still fall short in reliability and generalization, especially when deployed across different embodiments or real-world environments. In this work, we introduce NORA-1.5, a VLA model built from the pre-trained NORA backbone by adding to it a flow-matching-based action expert. This architectural enhancement alone yields substantial performance gains, enabling NORA-1.5 to outperform NORA and several state-of-the-art VLA models across both simulated and real-world benchmarks. To further improve robustness and task success, we develop a set of reward models for post-training VLA policies. Our rewards combine (i) an action-conditioned world model (WM) that evaluates whether generated actions lead toward the desired goal, and (ii) a deviation-from-ground-truth heuristic that distinguishes good actions from poor ones. Using these reward signals, we construct preference datasets and adapt NORA-1.5 to target embodiments through direct preference optimization (DPO). Extensive evaluations show that reward-driven post-training consistently improves performance in both simulation and real-robot settings, demonstrating significant VLA model-reliability gains through simple yet effective reward models. Our findings highlight NORA-1.5 and reward-guided post-training as a viable path toward more dependable embodied agents suitable for real-world deployment.
PDF122December 1, 2025