NORA-1.5: Ein Vision-Sprache-Handlung-Modell, das mit Präferenzbelohnungen auf Basis von Weltmodellen und Handlungen trainiert wurde
NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards
November 18, 2025
papers.authors: Chia-Yu Hung, Navonil Majumder, Haoyuan Deng, Liu Renhang, Yankang Ang, Amir Zadeh, Chuan Li, Dorien Herremans, Ziwei Wang, Soujanya Poria
cs.AI
papers.abstract
Vision–Language–Action (VLA)-Modelle haben kürzlich vielversprechende Leistungen bei einer Vielzahl von verkörperten Aufgaben gezeigt, erreichen jedoch noch keine ausreichende Zuverlässigkeit und Generalisierungsfähigkeit, insbesondere beim Einsatz über verschiedene Verkörperungen oder reale Umgebungen hinweg. In dieser Arbeit stellen wir NORA-1.5 vor, ein VLA-Modell, das auf dem vortrainierten NORA-Backbone aufbaut und um einen auf Flow-Matching basierenden Aktions-Experten erweitert wird. Diese alleinige architektonische Verbesserung erzielt bereits erhebliche Leistungssteigerungen und ermöglicht es NORA-1.5, NORA und mehrere state-of-the-art VLA-Modelle in simulierten und realen Benchmarks zu übertreffen. Um die Robustheit und Aufgabenbewältigung weiter zu verbessern, entwickeln wir eine Reihe von Belohnungsmodellen für das Nachtraining von VLA-Policies. Unsere Belohnungen kombinieren (i) ein aktionskonditioniertes Weltmodell (WM), das bewertet, ob generierte Aktionen zum gewünschten Ziel führen, und (ii) eine Heuristik zur Abweichung von der Ground-Truth, die gute von schlechten Aktionen unterscheidet. Mithilfe dieser Belohnungssignale erstellen wir Präferenzdatensätze und passen NORA-1.5 durch Direct Preference Optimization (DPO) an Zielverkörperungen an. Umfangreiche Auswertungen zeigen, dass das belohnungsgesteuerte Nachtraining die Leistung in Simulation und realen Robotik-Umgebungen konsistent verbessert und signifikante Zuverlässigkeitsgewinne für VLA-Modelle durch einfache, aber effektive Belohnungsmodelle demonstriert. Unsere Ergebnisse unterstreichen NORA-1.5 und belohnungsgeführtes Nachtraining als einen vielversprechenden Weg hin zu zuverlässigeren, für den realen Einsatz geeigneten, verkörperten Agenten.
English
Vision--language--action (VLA) models have recently shown promising performance on a variety of embodied tasks, yet they still fall short in reliability and generalization, especially when deployed across different embodiments or real-world environments. In this work, we introduce NORA-1.5, a VLA model built from the pre-trained NORA backbone by adding to it a flow-matching-based action expert. This architectural enhancement alone yields substantial performance gains, enabling NORA-1.5 to outperform NORA and several state-of-the-art VLA models across both simulated and real-world benchmarks. To further improve robustness and task success, we develop a set of reward models for post-training VLA policies. Our rewards combine (i) an action-conditioned world model (WM) that evaluates whether generated actions lead toward the desired goal, and (ii) a deviation-from-ground-truth heuristic that distinguishes good actions from poor ones. Using these reward signals, we construct preference datasets and adapt NORA-1.5 to target embodiments through direct preference optimization (DPO). Extensive evaluations show that reward-driven post-training consistently improves performance in both simulation and real-robot settings, demonstrating significant VLA model-reliability gains through simple yet effective reward models. Our findings highlight NORA-1.5 and reward-guided post-training as a viable path toward more dependable embodied agents suitable for real-world deployment.