NORA-1.5: Um Modelo de Visão, Linguagem e Ação Treinado com Recompensas de Preferência Baseadas em Modelos do Mundo e Ações

Resumo

Os modelos visão-linguagem-ação (VLA) têm demonstrado recentemente um desempenho promissor em diversas tarefas de IA incorporada, mas ainda apresentam deficiências em confiabilidade e generalização, especialmente quando implantados em diferentes embodimentos ou ambientes do mundo real. Neste trabalho, apresentamos o NORA-1.5, um modelo VLA construído a partir do backbone pré-treinado NORA, adicionando-lhe um especialista de ação baseado em *flow matching*. Sozinha, essa melhoria arquitetônica gera ganhos substanciais de desempenho, permitindo que o NORA-1.5 supere o NORA e vários modelos VLA state-of-the-art em benchmarks simulados e do mundo real. Para melhorar ainda mais a robustez e o sucesso das tarefas, desenvolvemos um conjunto de modelos de recompensa para o pós-treinamento de políticas VLA. Nossas recompensas combinam (i) um modelo de mundo (MW) condicionado por ação que avalia se as ações geradas conduzem ao objetivo desejado, e (ii) uma heurística de desvio do *ground truth* que distingue boas ações de ações ruins. Utilizando esses sinais de recompensa, construímos conjuntos de dados de preferência e adaptamos o NORA-1.5 a embodimentos específicos por meio de otimização direta de preferência (DPO). Avaliações extensivas mostram que o pós-treinamento orientado por recompensa melhora consistentemente o desempenho tanto em simulação quanto em configurações com robôs reais, demonstrando ganhos significativos na confiabilidade do modelo VLA por meio de modelos de recompensa simples, porém eficazes. Nossas descobertas destacam o NORA-1.5 e o pós-treinamento guiado por recompensa como um caminho viável para agentes incorporados mais confiáveis e adequados para implantação no mundo real.

English

Vision--language--action (VLA) models have recently shown promising performance on a variety of embodied tasks, yet they still fall short in reliability and generalization, especially when deployed across different embodiments or real-world environments. In this work, we introduce NORA-1.5, a VLA model built from the pre-trained NORA backbone by adding to it a flow-matching-based action expert. This architectural enhancement alone yields substantial performance gains, enabling NORA-1.5 to outperform NORA and several state-of-the-art VLA models across both simulated and real-world benchmarks. To further improve robustness and task success, we develop a set of reward models for post-training VLA policies. Our rewards combine (i) an action-conditioned world model (WM) that evaluates whether generated actions lead toward the desired goal, and (ii) a deviation-from-ground-truth heuristic that distinguishes good actions from poor ones. Using these reward signals, we construct preference datasets and adapt NORA-1.5 to target embodiments through direct preference optimization (DPO). Extensive evaluations show that reward-driven post-training consistently improves performance in both simulation and real-robot settings, demonstrating significant VLA model-reliability gains through simple yet effective reward models. Our findings highlight NORA-1.5 and reward-guided post-training as a viable path toward more dependable embodied agents suitable for real-world deployment.

NORA-1.5: Um Modelo de Visão, Linguagem e Ação Treinado com Recompensas de Preferência Baseadas em Modelos do Mundo e Ações

NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards

Resumo

Support