NORA : Un petit modèle généraliste open source pour les tâches incarnées combinant vision, langage et action
NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks
April 28, 2025
Auteurs: Chia-Yu Hung, Qi Sun, Pengfei Hong, Amir Zadeh, Chuan Li, U-Xuan Tan, Navonil Majumder, Soujanya Poria
cs.AI
Résumé
Les modèles existants de Vision-Langue-Action (VLA) ont montré des performances prometteuses dans des scénarios zero-shot, démontrant des capacités impressionnantes d'exécution de tâches et de raisonnement. Cependant, un défi majeur réside dans les limitations de l'encodage visuel, qui peuvent entraîner des échecs lors de tâches telles que la saisie d'objets. De plus, ces modèles souffrent généralement d'un coût computationnel élevé en raison de leur grande taille, dépassant souvent 7 milliards de paramètres. Bien que ces modèles excellent en raisonnement et en planification de tâches, le coût computationnel substantiel qu'ils engendrent les rend peu pratiques pour des environnements robotiques en temps réel, où la vitesse et l'efficacité sont primordiales. Pour pallier les limitations des modèles VLA existants, nous proposons NORA, un modèle de 3 milliards de paramètres conçu pour réduire le coût computationnel tout en maintenant de solides performances de tâche. NORA adopte le modèle multimodal Qwen-2.5-VL-3B comme architecture de base, tirant parti de sa compréhension visuo-sémantique supérieure pour améliorer le raisonnement visuel et l'ancrage des actions. En outre, notre modèle est entraîné sur 970 000 démonstrations robotiques du monde réel et équipé du tokenizer FAST+ pour une génération efficace de séquences d'actions. Les résultats expérimentaux montrent que NORA surpasse les modèles VLA à grande échelle existants, obtenant de meilleures performances de tâche avec un coût computationnel significativement réduit, ce qui en fait une solution plus pratique pour l'autonomie robotique en temps réel.
English
Existing Visual-Language-Action (VLA) models have shown promising performance
in zero-shot scenarios, demonstrating impressive task execution and reasoning
capabilities. However, a significant challenge arises from the limitations of
visual encoding, which can result in failures during tasks such as object
grasping. Moreover, these models typically suffer from high computational
overhead due to their large sizes, often exceeding 7B parameters. While these
models excel in reasoning and task planning, the substantial computational
overhead they incur makes them impractical for real-time robotic environments,
where speed and efficiency are paramount. To address the limitations of
existing VLA models, we propose NORA, a 3B-parameter model designed to reduce
computational overhead while maintaining strong task performance. NORA adopts
the Qwen-2.5-VL-3B multimodal model as its backbone, leveraging its superior
visual-semantic understanding to enhance visual reasoning and action grounding.
Additionally, our is trained on 970k real-world robot demonstrations
and equipped with the FAST+ tokenizer for efficient action sequence generation.
Experimental results demonstrate that NORA outperforms existing large-scale VLA
models, achieving better task performance with significantly reduced
computational overhead, making it a more practical solution for real-time
robotic autonomy.