DeeR-VLA: Inferencia Dinámica de Modelos de Lenguaje Multimodales Grandes para una Ejecución Eficiente de Robots

Resumen

Los MLLMs han demostrado notables capacidades de comprensión y razonamiento con datos complejos de lenguaje y visuales. Estos avances han impulsado la visión de establecer un robot generalista MLLM competente en comprender instrucciones humanas complejas y llevar a cabo diversas tareas incorporadas. Sin embargo, desarrollar MLLMs para robots del mundo real es desafiante debido a las capacidades de cálculo y memoria típicamente limitadas disponibles en plataformas robóticas. Por el contrario, la inferencia de MLLMs implica almacenar miles de millones de parámetros y realizar un enorme cálculo, imponiendo demandas significativas de hardware. En nuestro artículo, proponemos un Marco Dinámico de Salida Temprana para el Modelo de Visión-Lenguaje-Acción Robótico (DeeR-VLA, o simplemente DeeR) que ajusta automáticamente el tamaño del MLLM activado en función de cada situación particular. El enfoque aprovecha una arquitectura de múltiples salidas en MLLMs, que permite al modelo terminar el procesamiento una vez que se ha activado un tamaño adecuado del modelo para una situación específica, evitando así un cálculo redundante adicional. Además, desarrollamos algoritmos novedosos que establecen criterios de terminación temprana para DeeR, condicionados a demandas predefinidas como el costo computacional promedio (es decir, consumo de energía), así como el consumo computacional pico (es decir, latencia) y el uso de memoria de GPU. Estas mejoras aseguran que DeeR opere eficientemente bajo diversas restricciones de recursos manteniendo un rendimiento competitivo. En el banco de pruebas de manipulación de robots CALVIN, DeeR muestra reducciones significativas en los costos computacionales de LLM de 5.2-6.5 veces y en la memoria de GPU de LLM de 2-6 veces sin comprometer el rendimiento. El código y los puntos de control están disponibles en https://github.com/yueyang130/DeeR-VLA.

English

MLLMs have demonstrated remarkable comprehension and reasoning capabilities with complex language and visual data. These advances have spurred the vision of establishing a generalist robotic MLLM proficient in understanding complex human instructions and accomplishing various embodied tasks. However, developing MLLMs for real-world robots is challenging due to the typically limited computation and memory capacities available on robotic platforms. In contrast, the inference of MLLMs involves storing billions of parameters and performing tremendous computation, imposing significant hardware demands. In our paper, we propose a Dynamic Early-Exit Framework for Robotic Vision-Language-Action Model (DeeR-VLA, or simply DeeR) that automatically adjusts the size of the activated MLLM based on each situation at hand. The approach leverages a multi-exit architecture in MLLMs, which allows the model to terminate processing once a proper size of the model has been activated for a specific situation, thus avoiding further redundant computation. Additionally, we develop novel algorithms that establish early-termination criteria for DeeR, conditioned on predefined demands such as average computational cost (i.e., power consumption), as well as peak computational consumption (i.e., latency) and GPU memory usage. These enhancements ensure that DeeR operates efficiently under varying resource constraints while maintaining competitive performance. On the CALVIN robot manipulation benchmark, DeeR demonstrates significant reductions in computational costs of LLM by 5.2-6.5x and GPU memory of LLM by 2-6x without compromising performance. Code and checkpoints are available at https://github.com/yueyang130/DeeR-VLA.

DeeR-VLA: Inferencia Dinámica de Modelos de Lenguaje Multimodales Grandes para una Ejecución Eficiente de Robots

DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution

Resumen

Support