DeeR-VLA: Inferência Dinâmica de Modelos de Linguagem Multimodais Grandes para Execução Eficiente de Robôs

Resumo

Os MLLMs têm demonstrado notáveis capacidades de compreensão e raciocínio com dados linguísticos e visuais complexos. Esses avanços têm impulsionado a visão de estabelecer um robô MLLM generalista capaz de entender instruções humanas complexas e realizar várias tarefas corporificadas. No entanto, desenvolver MLLMs para robôs do mundo real é desafiador devido às capacidades de computação e memória tipicamente limitadas disponíveis em plataformas robóticas. Em contraste, a inferência de MLLMs envolve armazenar bilhões de parâmetros e realizar uma enorme quantidade de computação, impondo demandas significativas de hardware. Em nosso artigo, propomos um Framework Dinâmico de Saída Antecipada para o Modelo de Visão-Linguagem-Ação Robótico (DeeR-VLA, ou simplesmente DeeR) que ajusta automaticamente o tamanho do MLLM ativado com base em cada situação em questão. A abordagem aproveita uma arquitetura de múltiplas saídas em MLLMs, que permite ao modelo encerrar o processamento assim que um tamanho apropriado do modelo tenha sido ativado para uma situação específica, evitando assim uma computação redundante adicional. Além disso, desenvolvemos algoritmos inovadores que estabelecem critérios de término antecipado para DeeR, condicionados a demandas predefinidas, como custo computacional médio (ou seja, consumo de energia), bem como consumo computacional máximo (ou seja, latência) e uso de memória da GPU. Essas melhorias garantem que DeeR opere de forma eficiente sob diferentes restrições de recursos, mantendo um desempenho competitivo. No benchmark de manipulação de robôs CALVIN, DeeR demonstra reduções significativas nos custos computacionais do MLLM em 5,2-6,5 vezes e na memória da GPU do MLLM em 2-6 vezes sem comprometer o desempenho. O código e os checkpoints estão disponíveis em https://github.com/yueyang130/DeeR-VLA.

English

MLLMs have demonstrated remarkable comprehension and reasoning capabilities with complex language and visual data. These advances have spurred the vision of establishing a generalist robotic MLLM proficient in understanding complex human instructions and accomplishing various embodied tasks. However, developing MLLMs for real-world robots is challenging due to the typically limited computation and memory capacities available on robotic platforms. In contrast, the inference of MLLMs involves storing billions of parameters and performing tremendous computation, imposing significant hardware demands. In our paper, we propose a Dynamic Early-Exit Framework for Robotic Vision-Language-Action Model (DeeR-VLA, or simply DeeR) that automatically adjusts the size of the activated MLLM based on each situation at hand. The approach leverages a multi-exit architecture in MLLMs, which allows the model to terminate processing once a proper size of the model has been activated for a specific situation, thus avoiding further redundant computation. Additionally, we develop novel algorithms that establish early-termination criteria for DeeR, conditioned on predefined demands such as average computational cost (i.e., power consumption), as well as peak computational consumption (i.e., latency) and GPU memory usage. These enhancements ensure that DeeR operates efficiently under varying resource constraints while maintaining competitive performance. On the CALVIN robot manipulation benchmark, DeeR demonstrates significant reductions in computational costs of LLM by 5.2-6.5x and GPU memory of LLM by 2-6x without compromising performance. Code and checkpoints are available at https://github.com/yueyang130/DeeR-VLA.

DeeR-VLA: Inferência Dinâmica de Modelos de Linguagem Multimodais Grandes para Execução Eficiente de Robôs

DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution

Resumo

Support