NORA-1.5: Un Modello Visione-Linguaggio-Azione Addestrato con Ricompense di Preferenza basate su Modelli del Mondo e Azioni
NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards
November 18, 2025
Autori: Chia-Yu Hung, Navonil Majumder, Haoyuan Deng, Liu Renhang, Yankang Ang, Amir Zadeh, Chuan Li, Dorien Herremans, Ziwei Wang, Soujanya Poria
cs.AI
Abstract
I modelli visione-linguaggio-azione (VLA) hanno recentemente dimostrato prestazioni promettenti in una varietà di compiti embodied, ma risultano ancora carenti in termini di affidabilità e generalizzazione, specialmente quando vengono impiegati in diverse embodiment o ambienti del mondo reale. In questo lavoro, introduciamo NORA-1.5, un modello VLA costruito a partire dal backbone pre-addestrato di NORA aggiungendovi un esperto d'azione basato sul flow matching. Questo singolo miglioramento architetturale produce sostanziali guadagni prestazionali, consentendo a NORA-1.5 di superare NORA e diversi modelli VLA all'avanguardia sia in benchmark simulati che del mondo reale. Per migliorare ulteriormente la robustezza e il successo dei compiti, sviluppiamo una serie di modelli di reward per il post-training delle politiche VLA. I nostri reward combinano (i) un modello del mondo (WM) condizionato all'azione che valuta se le azioni generate conducono verso l'obiettivo desiderato, e (ii) un'euristica di deviazione dalla ground truth che distingue le azioni buone da quelle scadenti. Utilizzando questi segnali di reward, costruiamo dataset di preferenze e adattiamo NORA-1.5 a embodiment specifici tramite l'ottimizzazione diretta delle preferenze (DPO). Valutazioni estensive mostrano che il post-training guidato dal reward migliora costantemente le prestazioni sia in simulazione che in contesti con robot reali, dimostrando significativi guadagni nell'affidabilità dei modelli VLA attraverso modelli di reward semplici ma efficaci. I nostri risultati evidenziano NORA-1.5 e il post-training guidato dal reward come un percorso percorribile verso agenti embodied più affidabili e adatti per il deployment nel mondo reale.
English
Vision--language--action (VLA) models have recently shown promising performance on a variety of embodied tasks, yet they still fall short in reliability and generalization, especially when deployed across different embodiments or real-world environments. In this work, we introduce NORA-1.5, a VLA model built from the pre-trained NORA backbone by adding to it a flow-matching-based action expert. This architectural enhancement alone yields substantial performance gains, enabling NORA-1.5 to outperform NORA and several state-of-the-art VLA models across both simulated and real-world benchmarks. To further improve robustness and task success, we develop a set of reward models for post-training VLA policies. Our rewards combine (i) an action-conditioned world model (WM) that evaluates whether generated actions lead toward the desired goal, and (ii) a deviation-from-ground-truth heuristic that distinguishes good actions from poor ones. Using these reward signals, we construct preference datasets and adapt NORA-1.5 to target embodiments through direct preference optimization (DPO). Extensive evaluations show that reward-driven post-training consistently improves performance in both simulation and real-robot settings, demonstrating significant VLA model-reliability gains through simple yet effective reward models. Our findings highlight NORA-1.5 and reward-guided post-training as a viable path toward more dependable embodied agents suitable for real-world deployment.