ChatPaper.aiChatPaper

NORA-1.5: 世界モデルと行動に基づく選好報酬を用いて学習した視覚言語行動モデル

NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards

November 18, 2025
著者: Chia-Yu Hung, Navonil Majumder, Haoyuan Deng, Liu Renhang, Yankang Ang, Amir Zadeh, Chuan Li, Dorien Herremans, Ziwei Wang, Soujanya Poria
cs.AI

要旨

視覚-言語-行動(VLA)モデルは、様々な具体化タスクにおいて有望な性能を示しているが、特に異なる身体構造や実世界環境に展開する場合、信頼性と汎化性能において未だ課題を残している。本研究では、事前学習済みNORAバックボーンにフローマッチングに基づく行動エキスパートを追加したVLAモデル、NORA-1.5を提案する。このアーキテクチャ強化のみで大幅な性能向上が達成され、NORA-1.5はシミュレーションと実世界の両方のベンチマークにおいて、NORAおよびいくつかの最先端VLAモデルを凌駕する。堅牢性とタスク成功率をさらに向上させるため、VLAポリシーのポストトレーニング用に一連の報酬モデルを開発した。我々の報酬は、(i) 生成された行動が所望の目標に向かうかどうかを評価する行動条件付き世界モデル(WM)と、(ii) 良好な行動と不良な行動を区別する地面真実からの逸脱ヒューリスティックを組み合わせたものである。これらの報酬信号を用いて選好データセットを構築し、直接選好最適化(DPO)を通じてNORA-1.5を対象の身体構造に適応させる。大規模な評価により、報駆動型ポストトレーニングがシミュレーションと実ロボット環境の両方で一貫して性能を向上させ、シンプルかつ効果的な報酬モデルを通じてVLAモデルの信頼性が大幅に向上することを実証した。我々の知見は、NORA-1.5と報酬誘導型ポストトレーニングが、実世界展開に適したより信頼性の高い具体化エージェントへの有効な道筋であることを示唆している。
English
Vision--language--action (VLA) models have recently shown promising performance on a variety of embodied tasks, yet they still fall short in reliability and generalization, especially when deployed across different embodiments or real-world environments. In this work, we introduce NORA-1.5, a VLA model built from the pre-trained NORA backbone by adding to it a flow-matching-based action expert. This architectural enhancement alone yields substantial performance gains, enabling NORA-1.5 to outperform NORA and several state-of-the-art VLA models across both simulated and real-world benchmarks. To further improve robustness and task success, we develop a set of reward models for post-training VLA policies. Our rewards combine (i) an action-conditioned world model (WM) that evaluates whether generated actions lead toward the desired goal, and (ii) a deviation-from-ground-truth heuristic that distinguishes good actions from poor ones. Using these reward signals, we construct preference datasets and adapt NORA-1.5 to target embodiments through direct preference optimization (DPO). Extensive evaluations show that reward-driven post-training consistently improves performance in both simulation and real-robot settings, demonstrating significant VLA model-reliability gains through simple yet effective reward models. Our findings highlight NORA-1.5 and reward-guided post-training as a viable path toward more dependable embodied agents suitable for real-world deployment.
PDF122December 1, 2025