ChatPaper.aiChatPaper

NORA-1.5: 월드 모델 및 행동 기반 선호도 보상을 활용해 훈련된 비전-언어-행동 모델

NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards

November 18, 2025
저자: Chia-Yu Hung, Navonil Majumder, Haoyuan Deng, Liu Renhang, Yankang Ang, Amir Zadeh, Chuan Li, Dorien Herremans, Ziwei Wang, Soujanya Poria
cs.AI

초록

비전-언어-행동(VLA) 모델은 최근 다양한 구체화 작업에서 유망한 성능을 보여주고 있지만, 특히 서로 다른 구현체나 실제 환경에 배포될 경우 신뢰성과 일반화 능력에서 여전히 부족함을 보입니다. 본 연구에서는 사전 훈련된 NORA 백본에 흐름 정합 기반 행동 전문가를 추가하여 VLA 모델인 NORA-1.5를 소개합니다. 이러한 구조적 개선만으로도 상당한 성능 향상을 이루어, NORA-1.5가 시뮬레이션 및 실제 벤치마크에서 NORA와 여러 최첨단 VLA 모델들을 능가할 수 있게 되었습니다. 강건성과 작업 성공률을 더욱 향상시키기 위해 VLA 정책 사후 훈련을 위한 일련의 보상 모델을 개발했습니다. 우리의 보상은 (i) 생성된 행동이 원하는 목표로 이어지는지 평가하는 행동 조건부 세계 모델과 (ii) 양호한 행동과 그렇지 않은 행동을 구분하는 지상 진실 기준 편차 휴리스틱을 결합합니다. 이러한 보상 신호를 사용하여 선호도 데이터셋을 구성하고 직접 선호 최적화를 통해 NORA-1.5를 목표 구현체에 맞게 적응시킵니다. 광범위한 평가를 통해 보상 주도 사후 훈련이 시뮬레이션과 실제 로봇 환경 모두에서 지속적으로 성능을 향상시키며, 간단하면서도 효과적인 보상 모델을 통해 VLA 모델의 신뢰성이 크게 개선됨을 입증합니다. 우리의 연구 결과는 NORA-1.5와 보상 가이드 사후 훈련이 실제 배포에 적합한 더욱 신뢰할 수 있는 구체화 에이전트로 나아가는 실현 가능한 경로임을 보여줍니다.
English
Vision--language--action (VLA) models have recently shown promising performance on a variety of embodied tasks, yet they still fall short in reliability and generalization, especially when deployed across different embodiments or real-world environments. In this work, we introduce NORA-1.5, a VLA model built from the pre-trained NORA backbone by adding to it a flow-matching-based action expert. This architectural enhancement alone yields substantial performance gains, enabling NORA-1.5 to outperform NORA and several state-of-the-art VLA models across both simulated and real-world benchmarks. To further improve robustness and task success, we develop a set of reward models for post-training VLA policies. Our rewards combine (i) an action-conditioned world model (WM) that evaluates whether generated actions lead toward the desired goal, and (ii) a deviation-from-ground-truth heuristic that distinguishes good actions from poor ones. Using these reward signals, we construct preference datasets and adapt NORA-1.5 to target embodiments through direct preference optimization (DPO). Extensive evaluations show that reward-driven post-training consistently improves performance in both simulation and real-robot settings, demonstrating significant VLA model-reliability gains through simple yet effective reward models. Our findings highlight NORA-1.5 and reward-guided post-training as a viable path toward more dependable embodied agents suitable for real-world deployment.
PDF122December 1, 2025