NORA: Компактная открытая модель общего назначения для обработки визуальной информации, языка и действий в задачах воплощённого интеллекта
NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks
April 28, 2025
Авторы: Chia-Yu Hung, Qi Sun, Pengfei Hong, Amir Zadeh, Chuan Li, U-Xuan Tan, Navonil Majumder, Soujanya Poria
cs.AI
Аннотация
Существующие модели визуально-языкового-действия (VLA) показали многообещающие результаты в сценариях с нулевым обучением, демонстрируя впечатляющие способности к выполнению задач и рассуждениям. Однако значительная проблема возникает из-за ограничений визуального кодирования, что может приводить к сбоям при выполнении задач, таких как захват объектов. Кроме того, эти модели обычно страдают от высоких вычислительных затрат из-за их больших размеров, часто превышающих 7 миллиардов параметров. Хотя эти модели преуспевают в рассуждениях и планировании задач, значительные вычислительные затраты делают их непрактичными для использования в реальных роботизированных средах, где скорость и эффективность имеют первостепенное значение. Чтобы устранить ограничения существующих моделей VLA, мы предлагаем NORA — модель с 3 миллиардами параметров, разработанную для снижения вычислительных затрат при сохранении высокой производительности в задачах. NORA использует мультимодальную модель Qwen-2.5-VL-3B в качестве основы, используя её превосходное визуально-семантическое понимание для улучшения визуального рассуждения и привязки действий. Кроме того, наша модель обучается на 970 тысячах реальных демонстраций роботов и оснащена токенизатором FAST+ для эффективного генерации последовательностей действий. Экспериментальные результаты показывают, что NORA превосходит существующие крупномасштабные модели VLA, достигая лучшей производительности в задачах при значительно сниженных вычислительных затратах, что делает её более практичным решением для автономной работы роботов в реальном времени.
English
Existing Visual-Language-Action (VLA) models have shown promising performance
in zero-shot scenarios, demonstrating impressive task execution and reasoning
capabilities. However, a significant challenge arises from the limitations of
visual encoding, which can result in failures during tasks such as object
grasping. Moreover, these models typically suffer from high computational
overhead due to their large sizes, often exceeding 7B parameters. While these
models excel in reasoning and task planning, the substantial computational
overhead they incur makes them impractical for real-time robotic environments,
where speed and efficiency are paramount. To address the limitations of
existing VLA models, we propose NORA, a 3B-parameter model designed to reduce
computational overhead while maintaining strong task performance. NORA adopts
the Qwen-2.5-VL-3B multimodal model as its backbone, leveraging its superior
visual-semantic understanding to enhance visual reasoning and action grounding.
Additionally, our is trained on 970k real-world robot demonstrations
and equipped with the FAST+ tokenizer for efficient action sequence generation.
Experimental results demonstrate that NORA outperforms existing large-scale VLA
models, achieving better task performance with significantly reduced
computational overhead, making it a more practical solution for real-time
robotic autonomy.Summary
AI-Generated Summary