DeeR-VLA: Динамическое вывод мультимодальных больших языковых моделей для эффективного выполнения роботом.

Аннотация

Модели на основе машинного обучения с механизмом внимания продемонстрировали выдающиеся способности к пониманию и рассуждениям с использованием сложных языковых и визуальных данных. Эти достижения подтолкнули идею создания универсального робота-специалиста MLLM, способного понимать сложные человеческие инструкции и выполнять различные задачи воплощенного действия. Однако разработка MLLM для реальных роботов представляет собой сложную задачу из-за ограниченных вычислительных и памятных возможностей, доступных на робототехнических платформах. В отличие от этого, вывод MLLM включает в себя хранение миллиардов параметров и выполнение огромных вычислений, что накладывает значительные аппаратные требования. В нашей статье мы предлагаем Динамическую Систему Преждевременного Выхода для Модели Видение-Язык-Действие (DeeR-VLA, или просто DeeR), которая автоматически регулирует размер активированной MLLM в зависимости от каждой конкретной ситуации. Подход использует многовыходовую архитектуру в MLLM, что позволяет модели завершить обработку, как только для конкретной ситуации активирован правильный размер модели, тем самым избегая дальнейших избыточных вычислений. Кроме того, мы разрабатываем новые алгоритмы, которые устанавливают критерии досрочного завершения для DeeR, зависящие от заранее определенных требований, таких как средние вычислительные затраты (т.е. энергопотребление), а также пиковое потребление вычислительных ресурсов (т.е. задержка) и использование памяти GPU. Эти улучшения гарантируют, что DeeR эффективно функционирует при различных ограничениях ресурсов, сохраняя конкурентоспособную производительность. На бенчмарке по манипуляции роботом CALVIN DeeR демонстрирует значительное снижение вычислительных затрат MLLM на 5,2-6,5 раз и использования памяти GPU MLLM на 2-6 раз без ущерба для производительности. Код и контрольные точки доступны на https://github.com/yueyang130/DeeR-VLA.

English

MLLMs have demonstrated remarkable comprehension and reasoning capabilities with complex language and visual data. These advances have spurred the vision of establishing a generalist robotic MLLM proficient in understanding complex human instructions and accomplishing various embodied tasks. However, developing MLLMs for real-world robots is challenging due to the typically limited computation and memory capacities available on robotic platforms. In contrast, the inference of MLLMs involves storing billions of parameters and performing tremendous computation, imposing significant hardware demands. In our paper, we propose a Dynamic Early-Exit Framework for Robotic Vision-Language-Action Model (DeeR-VLA, or simply DeeR) that automatically adjusts the size of the activated MLLM based on each situation at hand. The approach leverages a multi-exit architecture in MLLMs, which allows the model to terminate processing once a proper size of the model has been activated for a specific situation, thus avoiding further redundant computation. Additionally, we develop novel algorithms that establish early-termination criteria for DeeR, conditioned on predefined demands such as average computational cost (i.e., power consumption), as well as peak computational consumption (i.e., latency) and GPU memory usage. These enhancements ensure that DeeR operates efficiently under varying resource constraints while maintaining competitive performance. On the CALVIN robot manipulation benchmark, DeeR demonstrates significant reductions in computational costs of LLM by 5.2-6.5x and GPU memory of LLM by 2-6x without compromising performance. Code and checkpoints are available at https://github.com/yueyang130/DeeR-VLA.

DeeR-VLA: Динамическое вывод мультимодальных больших языковых моделей для эффективного выполнения роботом.

DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution

Аннотация

Support