NORA: Ein kleines, quelloffenes Generalisten-Modell für Vision, Sprache und Aktion für verkörperte Aufgaben

papers.abstract

Bestehende Visual-Language-Action (VLA)-Modelle haben vielversprechende Leistungen in Zero-Shot-Szenarien gezeigt und beeindruckende Fähigkeiten bei der Aufgabenausführung und dem logischen Denken bewiesen. Eine wesentliche Herausforderung ergibt sich jedoch aus den Einschränkungen der visuellen Kodierung, die zu Fehlern bei Aufgaben wie dem Greifen von Objekten führen können. Darüber hinaus leiden diese Modelle typischerweise unter einem hohen Rechenaufwand aufgrund ihrer großen Größe, die oft 7B Parameter übersteigt. Während diese Modelle im logischen Denken und der Aufgabenplanung hervorragend abschneiden, macht der erhebliche Rechenaufwand sie für Echtzeit-Roboterumgebungen unpraktisch, in denen Geschwindigkeit und Effizienz von entscheidender Bedeutung sind. Um die Einschränkungen bestehender VLA-Modelle zu adressieren, schlagen wir NORA vor, ein 3B-Parameter-Modell, das darauf abzielt, den Rechenaufwand zu reduzieren und gleichzeitig eine starke Aufgabenleistung beizubehalten. NORA übernimmt das Qwen-2.5-VL-3B-Multimodell als Grundlage und nutzt dessen überlegenes visuell-semantisches Verständnis, um das visuelle Denken und die Handlungsverankerung zu verbessern. Zusätzlich wird unser Modell mit 970k realen Roboter-Demonstrationen trainiert und mit dem FAST+-Tokenizer für die effiziente Generierung von Aktionssequenzen ausgestattet. Experimentelle Ergebnisse zeigen, dass NORA bestehende großskalige VLA-Modelle übertrifft, eine bessere Aufgabenleistung bei deutlich reduziertem Rechenaufwand erzielt und es somit zu einer praktischeren Lösung für die Echtzeit-Roboterautonomie macht.

English

Existing Visual-Language-Action (VLA) models have shown promising performance in zero-shot scenarios, demonstrating impressive task execution and reasoning capabilities. However, a significant challenge arises from the limitations of visual encoding, which can result in failures during tasks such as object grasping. Moreover, these models typically suffer from high computational overhead due to their large sizes, often exceeding 7B parameters. While these models excel in reasoning and task planning, the substantial computational overhead they incur makes them impractical for real-time robotic environments, where speed and efficiency are paramount. To address the limitations of existing VLA models, we propose NORA, a 3B-parameter model designed to reduce computational overhead while maintaining strong task performance. NORA adopts the Qwen-2.5-VL-3B multimodal model as its backbone, leveraging its superior visual-semantic understanding to enhance visual reasoning and action grounding. Additionally, our is trained on 970k real-world robot demonstrations and equipped with the FAST+ tokenizer for efficient action sequence generation. Experimental results demonstrate that NORA outperforms existing large-scale VLA models, achieving better task performance with significantly reduced computational overhead, making it a more practical solution for real-time robotic autonomy.

NORA: Ein kleines, quelloffenes Generalisten-Modell für Vision, Sprache und Aktion für verkörperte Aufgaben

NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

papers.abstract

Support