NORA: Ein kleines, quelloffenes Generalisten-Modell für Vision, Sprache und Aktion für verkörperte Aufgaben
NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks
April 28, 2025
Autoren: Chia-Yu Hung, Qi Sun, Pengfei Hong, Amir Zadeh, Chuan Li, U-Xuan Tan, Navonil Majumder, Soujanya Poria
cs.AI
Zusammenfassung
Bestehende Visual-Language-Action (VLA)-Modelle haben vielversprechende Leistungen in Zero-Shot-Szenarien gezeigt und beeindruckende Fähigkeiten bei der Aufgabenausführung und dem logischen Denken bewiesen. Eine wesentliche Herausforderung ergibt sich jedoch aus den Einschränkungen der visuellen Kodierung, die zu Fehlern bei Aufgaben wie dem Greifen von Objekten führen können. Darüber hinaus leiden diese Modelle typischerweise unter einem hohen Rechenaufwand aufgrund ihrer großen Größe, die oft 7B Parameter übersteigt. Während diese Modelle im logischen Denken und der Aufgabenplanung hervorragend abschneiden, macht der erhebliche Rechenaufwand sie für Echtzeit-Roboterumgebungen unpraktisch, in denen Geschwindigkeit und Effizienz von entscheidender Bedeutung sind. Um die Einschränkungen bestehender VLA-Modelle zu adressieren, schlagen wir NORA vor, ein 3B-Parameter-Modell, das darauf abzielt, den Rechenaufwand zu reduzieren und gleichzeitig eine starke Aufgabenleistung beizubehalten. NORA übernimmt das Qwen-2.5-VL-3B-Multimodell als Grundlage und nutzt dessen überlegenes visuell-semantisches Verständnis, um das visuelle Denken und die Handlungsverankerung zu verbessern. Zusätzlich wird unser Modell mit 970k realen Roboter-Demonstrationen trainiert und mit dem FAST+-Tokenizer für die effiziente Generierung von Aktionssequenzen ausgestattet. Experimentelle Ergebnisse zeigen, dass NORA bestehende großskalige VLA-Modelle übertrifft, eine bessere Aufgabenleistung bei deutlich reduziertem Rechenaufwand erzielt und es somit zu einer praktischeren Lösung für die Echtzeit-Roboterautonomie macht.
English
Existing Visual-Language-Action (VLA) models have shown promising performance
in zero-shot scenarios, demonstrating impressive task execution and reasoning
capabilities. However, a significant challenge arises from the limitations of
visual encoding, which can result in failures during tasks such as object
grasping. Moreover, these models typically suffer from high computational
overhead due to their large sizes, often exceeding 7B parameters. While these
models excel in reasoning and task planning, the substantial computational
overhead they incur makes them impractical for real-time robotic environments,
where speed and efficiency are paramount. To address the limitations of
existing VLA models, we propose NORA, a 3B-parameter model designed to reduce
computational overhead while maintaining strong task performance. NORA adopts
the Qwen-2.5-VL-3B multimodal model as its backbone, leveraging its superior
visual-semantic understanding to enhance visual reasoning and action grounding.
Additionally, our is trained on 970k real-world robot demonstrations
and equipped with the FAST+ tokenizer for efficient action sequence generation.
Experimental results demonstrate that NORA outperforms existing large-scale VLA
models, achieving better task performance with significantly reduced
computational overhead, making it a more practical solution for real-time
robotic autonomy.Summary
AI-Generated Summary