ChatPaper.aiChatPaper

NORA: Um Modelo Pequeno, de Código Aberto e Generalista de Visão, Linguagem e Ação para Tarefas Embarcadas

NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

April 28, 2025
Autores: Chia-Yu Hung, Qi Sun, Pengfei Hong, Amir Zadeh, Chuan Li, U-Xuan Tan, Navonil Majumder, Soujanya Poria
cs.AI

Resumo

Os modelos existentes de Visão-Linguagem-Ação (VLA) têm demonstrado desempenho promissor em cenários de zero-shot, exibindo capacidades impressionantes de execução de tarefas e raciocínio. No entanto, um desafio significativo surge das limitações da codificação visual, que pode resultar em falhas durante tarefas como a preensão de objetos. Além disso, esses modelos geralmente sofrem com um alto custo computacional devido ao seu grande tamanho, frequentemente ultrapassando 7 bilhões de parâmetros. Embora esses modelos se destaquem em raciocínio e planejamento de tarefas, o substancial custo computacional que eles acarretam os torna impraticáveis para ambientes robóticos em tempo real, onde velocidade e eficiência são primordiais. Para abordar as limitações dos modelos VLA existentes, propomos o NORA, um modelo de 3 bilhões de parâmetros projetado para reduzir o custo computacional enquanto mantém um forte desempenho em tarefas. O NORA adota o modelo multimodal Qwen-2.5-VL-3B como sua base, aproveitando sua compreensão visual-semântica superior para aprimorar o raciocínio visual e a fundamentação de ações. Além disso, nosso modelo é treinado em 970 mil demonstrações robóticas do mundo real e equipado com o tokenizador FAST+ para a geração eficiente de sequências de ações. Resultados experimentais demonstram que o NORA supera os modelos VLA de grande escala existentes, alcançando um melhor desempenho em tarefas com um custo computacional significativamente reduzido, tornando-o uma solução mais prática para a autonomia robótica em tempo real.
English
Existing Visual-Language-Action (VLA) models have shown promising performance in zero-shot scenarios, demonstrating impressive task execution and reasoning capabilities. However, a significant challenge arises from the limitations of visual encoding, which can result in failures during tasks such as object grasping. Moreover, these models typically suffer from high computational overhead due to their large sizes, often exceeding 7B parameters. While these models excel in reasoning and task planning, the substantial computational overhead they incur makes them impractical for real-time robotic environments, where speed and efficiency are paramount. To address the limitations of existing VLA models, we propose NORA, a 3B-parameter model designed to reduce computational overhead while maintaining strong task performance. NORA adopts the Qwen-2.5-VL-3B multimodal model as its backbone, leveraging its superior visual-semantic understanding to enhance visual reasoning and action grounding. Additionally, our is trained on 970k real-world robot demonstrations and equipped with the FAST+ tokenizer for efficient action sequence generation. Experimental results demonstrate that NORA outperforms existing large-scale VLA models, achieving better task performance with significantly reduced computational overhead, making it a more practical solution for real-time robotic autonomy.
PDF72April 29, 2025