DeeR-VLA: Динамическое вывод мультимодальных больших языковых моделей для эффективного выполнения роботом.
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution
November 4, 2024
Авторы: Yang Yue, Yulin Wang, Bingyi Kang, Yizeng Han, Shenzhi Wang, Shiji Song, Jiashi Feng, Gao Huang
cs.AI
Аннотация
Модели на основе машинного обучения с механизмом внимания продемонстрировали выдающиеся способности к пониманию и рассуждениям с использованием сложных языковых и визуальных данных. Эти достижения подтолкнули идею создания универсального робота-специалиста MLLM, способного понимать сложные человеческие инструкции и выполнять различные задачи воплощенного действия. Однако разработка MLLM для реальных роботов представляет собой сложную задачу из-за ограниченных вычислительных и памятных возможностей, доступных на робототехнических платформах. В отличие от этого, вывод MLLM включает в себя хранение миллиардов параметров и выполнение огромных вычислений, что накладывает значительные аппаратные требования. В нашей статье мы предлагаем Динамическую Систему Преждевременного Выхода для Модели Видение-Язык-Действие (DeeR-VLA, или просто DeeR), которая автоматически регулирует размер активированной MLLM в зависимости от каждой конкретной ситуации. Подход использует многовыходовую архитектуру в MLLM, что позволяет модели завершить обработку, как только для конкретной ситуации активирован правильный размер модели, тем самым избегая дальнейших избыточных вычислений. Кроме того, мы разрабатываем новые алгоритмы, которые устанавливают критерии досрочного завершения для DeeR, зависящие от заранее определенных требований, таких как средние вычислительные затраты (т.е. энергопотребление), а также пиковое потребление вычислительных ресурсов (т.е. задержка) и использование памяти GPU. Эти улучшения гарантируют, что DeeR эффективно функционирует при различных ограничениях ресурсов, сохраняя конкурентоспособную производительность. На бенчмарке по манипуляции роботом CALVIN DeeR демонстрирует значительное снижение вычислительных затрат MLLM на 5,2-6,5 раз и использования памяти GPU MLLM на 2-6 раз без ущерба для производительности. Код и контрольные точки доступны на https://github.com/yueyang130/DeeR-VLA.
English
MLLMs have demonstrated remarkable comprehension and reasoning capabilities
with complex language and visual data. These advances have spurred the vision
of establishing a generalist robotic MLLM proficient in understanding complex
human instructions and accomplishing various embodied tasks. However,
developing MLLMs for real-world robots is challenging due to the typically
limited computation and memory capacities available on robotic platforms. In
contrast, the inference of MLLMs involves storing billions of parameters and
performing tremendous computation, imposing significant hardware demands. In
our paper, we propose a Dynamic Early-Exit Framework for Robotic
Vision-Language-Action Model (DeeR-VLA, or simply DeeR) that automatically
adjusts the size of the activated MLLM based on each situation at hand. The
approach leverages a multi-exit architecture in MLLMs, which allows the model
to terminate processing once a proper size of the model has been activated for
a specific situation, thus avoiding further redundant computation.
Additionally, we develop novel algorithms that establish early-termination
criteria for DeeR, conditioned on predefined demands such as average
computational cost (i.e., power consumption), as well as peak computational
consumption (i.e., latency) and GPU memory usage. These enhancements ensure
that DeeR operates efficiently under varying resource constraints while
maintaining competitive performance. On the CALVIN robot manipulation
benchmark, DeeR demonstrates significant reductions in computational costs of
LLM by 5.2-6.5x and GPU memory of LLM by 2-6x without compromising performance.
Code and checkpoints are available at https://github.com/yueyang130/DeeR-VLA.Summary
AI-Generated Summary