NORA: Компактная открытая модель общего назначения для обработки визуальной информации, языка и действий в задачах воплощённого интеллекта

Аннотация

Существующие модели визуально-языкового-действия (VLA) показали многообещающие результаты в сценариях с нулевым обучением, демонстрируя впечатляющие способности к выполнению задач и рассуждениям. Однако значительная проблема возникает из-за ограничений визуального кодирования, что может приводить к сбоям при выполнении задач, таких как захват объектов. Кроме того, эти модели обычно страдают от высоких вычислительных затрат из-за их больших размеров, часто превышающих 7 миллиардов параметров. Хотя эти модели преуспевают в рассуждениях и планировании задач, значительные вычислительные затраты делают их непрактичными для использования в реальных роботизированных средах, где скорость и эффективность имеют первостепенное значение. Чтобы устранить ограничения существующих моделей VLA, мы предлагаем NORA — модель с 3 миллиардами параметров, разработанную для снижения вычислительных затрат при сохранении высокой производительности в задачах. NORA использует мультимодальную модель Qwen-2.5-VL-3B в качестве основы, используя её превосходное визуально-семантическое понимание для улучшения визуального рассуждения и привязки действий. Кроме того, наша модель обучается на 970 тысячах реальных демонстраций роботов и оснащена токенизатором FAST+ для эффективного генерации последовательностей действий. Экспериментальные результаты показывают, что NORA превосходит существующие крупномасштабные модели VLA, достигая лучшей производительности в задачах при значительно сниженных вычислительных затратах, что делает её более практичным решением для автономной работы роботов в реальном времени.

English

Existing Visual-Language-Action (VLA) models have shown promising performance in zero-shot scenarios, demonstrating impressive task execution and reasoning capabilities. However, a significant challenge arises from the limitations of visual encoding, which can result in failures during tasks such as object grasping. Moreover, these models typically suffer from high computational overhead due to their large sizes, often exceeding 7B parameters. While these models excel in reasoning and task planning, the substantial computational overhead they incur makes them impractical for real-time robotic environments, where speed and efficiency are paramount. To address the limitations of existing VLA models, we propose NORA, a 3B-parameter model designed to reduce computational overhead while maintaining strong task performance. NORA adopts the Qwen-2.5-VL-3B multimodal model as its backbone, leveraging its superior visual-semantic understanding to enhance visual reasoning and action grounding. Additionally, our is trained on 970k real-world robot demonstrations and equipped with the FAST+ tokenizer for efficient action sequence generation. Experimental results demonstrate that NORA outperforms existing large-scale VLA models, achieving better task performance with significantly reduced computational overhead, making it a more practical solution for real-time robotic autonomy.

NORA: Компактная открытая модель общего назначения для обработки визуальной информации, языка и действий в задачах воплощённого интеллекта

NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

Аннотация

Support