ChatPaper.aiChatPaper

NORA-1.5 : Un modèle vision-langue-action entraîné à l'aide de récompenses de préférence basées sur les modèles du monde et les actions

NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards

November 18, 2025
papers.authors: Chia-Yu Hung, Navonil Majumder, Haoyuan Deng, Liu Renhang, Yankang Ang, Amir Zadeh, Chuan Li, Dorien Herremans, Ziwei Wang, Soujanya Poria
cs.AI

papers.abstract

Les modèles vision-langage-action (VLA) ont récemment démontré des performances prometteuses sur diverses tâches incarnées, mais ils pêchent encore en fiabilité et en généralisation, particulièrement lorsqu'ils sont déployés sur différentes embodiments ou dans des environnements réels. Dans ce travail, nous présentons NORA-1.5, un modèle VLA construit à partir de l'architecture pré-entraînée NORA en lui ajoutant un expert d'action basé sur l'appariement de flux. Cette seule amélioration architecturale apporte des gains substantiels de performance, permettant à NORA-1.5 de surpasser NORA et plusieurs modèles VLA de pointe sur des benchmarks en simulation et dans le monde réel. Pour renforcer la robustesse et le succès des tâches, nous développons un ensemble de modèles de récompense pour le post-entraînement des politiques VLA. Nos récompenses combinent (i) un modèle du monde conditionné par l'action qui évalue si les actions générées mènent vers l'objectif désiré, et (ii) une heuristique d'écart à la vérité terrain qui distingue les bonnes actions des mauvaises. En utilisant ces signaux de récompense, nous construisons des ensembles de données de préférences et adaptons NORA-1.5 à des embodiments cibles via l'optimisation directe des préférences (DPO). Des évaluations approfondies montrent que le post-entraînement guidé par les récompenses améliore constamment les performances en simulation et sur robots réels, démontrant des gains significatifs de fiabilité des modèles VLA grâce à des modèles de récompense simples mais efficaces. Nos résultats soulignent que NORA-1.5 et le post-entraînement guidé par récompense constituent une voie viable vers des agents incarnés plus fiables, adaptés à un déploiement réel.
English
Vision--language--action (VLA) models have recently shown promising performance on a variety of embodied tasks, yet they still fall short in reliability and generalization, especially when deployed across different embodiments or real-world environments. In this work, we introduce NORA-1.5, a VLA model built from the pre-trained NORA backbone by adding to it a flow-matching-based action expert. This architectural enhancement alone yields substantial performance gains, enabling NORA-1.5 to outperform NORA and several state-of-the-art VLA models across both simulated and real-world benchmarks. To further improve robustness and task success, we develop a set of reward models for post-training VLA policies. Our rewards combine (i) an action-conditioned world model (WM) that evaluates whether generated actions lead toward the desired goal, and (ii) a deviation-from-ground-truth heuristic that distinguishes good actions from poor ones. Using these reward signals, we construct preference datasets and adapt NORA-1.5 to target embodiments through direct preference optimization (DPO). Extensive evaluations show that reward-driven post-training consistently improves performance in both simulation and real-robot settings, demonstrating significant VLA model-reliability gains through simple yet effective reward models. Our findings highlight NORA-1.5 and reward-guided post-training as a viable path toward more dependable embodied agents suitable for real-world deployment.
PDF122December 1, 2025