NORA-1.5: Een Vision-Language-Action Model Getraind met Wereldmodel- en Actiegebaseerde Preferentiebeloningen
NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards
November 18, 2025
Auteurs: Chia-Yu Hung, Navonil Majumder, Haoyuan Deng, Liu Renhang, Yankang Ang, Amir Zadeh, Chuan Li, Dorien Herremans, Ziwei Wang, Soujanya Poria
cs.AI
Samenvatting
Vision–language–action (VLA)-modellen hebben recent veelbelovende prestaties getoond op uiteenlopende embodied taken, maar ze schieten nog tekort in betrouwbaarheid en generalisatie, vooral wanneer ze worden ingezet in verschillende embodiment-omgevingen of in de echte wereld. In dit werk introduceren we NORA-1.5, een VLA-model dat is opgebouwd vanuit de vooraf getrainde NORA-backbone door er een op flow-matching gebaseerde actie-expert aan toe te voegen. Alleen al deze architectuurverbetering levert aanzienlijke prestatieverbeteringen op, waardoor NORA-1.5 NORA en verschillende state-of-the-art VLA-modellen overtreft op zowel gesimuleerde als real-world benchmarks. Om de robuustheid en taaksucces verder te verbeteren, ontwikkelen we een set beloningsmodellen voor het post-trainingen van VLA-beleidsregels. Onze beloningen combineren (i) een actie-geconditioneerd wereldmodel (WM) dat evalueert of gegenereerde acties leiden naar het gewenste doel, en (ii) een heuristiek voor afwijking-van-de-werkelijkheid die goede acties onderscheidt van slechte. Met deze beloningssignalen construeren we voorkeursdatasets en passen we NORA-1.5 aan op specifieke embodiment-omgevingen via direct preference optimization (DPO). Uitgebreide evaluaties tonen aan dat beloningsgestuurde post-training de prestaties consistent verbetert in zowel simulatie- als real-robotomgevingen, wat significante betrouwbaarheidswinst voor VLA-modellen demonstreert door middel van eenvoudige maar effectieve beloningsmodellen. Onze bevindingen benadrukken NORA-1.5 en beloningsgestuurde post-training als een haalbare route naar meer betrouwbare embodied agents die geschikt zijn voor inzet in de echte wereld.
English
Vision--language--action (VLA) models have recently shown promising performance on a variety of embodied tasks, yet they still fall short in reliability and generalization, especially when deployed across different embodiments or real-world environments. In this work, we introduce NORA-1.5, a VLA model built from the pre-trained NORA backbone by adding to it a flow-matching-based action expert. This architectural enhancement alone yields substantial performance gains, enabling NORA-1.5 to outperform NORA and several state-of-the-art VLA models across both simulated and real-world benchmarks. To further improve robustness and task success, we develop a set of reward models for post-training VLA policies. Our rewards combine (i) an action-conditioned world model (WM) that evaluates whether generated actions lead toward the desired goal, and (ii) a deviation-from-ground-truth heuristic that distinguishes good actions from poor ones. Using these reward signals, we construct preference datasets and adapt NORA-1.5 to target embodiments through direct preference optimization (DPO). Extensive evaluations show that reward-driven post-training consistently improves performance in both simulation and real-robot settings, demonstrating significant VLA model-reliability gains through simple yet effective reward models. Our findings highlight NORA-1.5 and reward-guided post-training as a viable path toward more dependable embodied agents suitable for real-world deployment.