Inferência Eficiente de Modelos de Visão para Seguir Instruções com Cache Elástico

Resumo

No campo de modelos grandes de visão-linguagem (LVLMs) que seguem instruções, a implantação eficiente desses modelos enfrenta desafios, principalmente devido às altas demandas de memória de seus caches chave-valor (KV). Estratégias convencionais de gerenciamento de cache para LLMs se concentram na evasão de cache, o que frequentemente não aborda as necessidades específicas de modelos multimodais que seguem instruções. Reconhecendo essa lacuna, neste artigo, introduzimos o Elastic Cache, uma abordagem inovadora que se beneficia da aplicação de métodos de aceleração distintos para as etapas de codificação de instruções e geração de saída. Investigamos as métricas de importância em diferentes etapas e propomos uma estratégia de fusão de cache orientada pela importância para podar caches redundantes. Em vez de descartar caches menos importantes, nossa estratégia identifica vetores chave/valor importantes como pontos de âncora. Caches menos importantes ao redor são então fundidos com esses âncoras, aprimorando a preservação de informações contextuais nos caches KV, ao mesmo tempo que proporciona uma taxa de aceleração arbitrária. Para codificação de instruções, utilizamos a frequência para avaliar a importância dos caches. Em relação à geração de saída, priorizamos tokens com base em sua distância com um deslocamento, nos quais tanto os tokens iniciais quanto os mais recentes são retidos. Resultados em uma variedade de LVLMs demonstram que o Elastic Cache não apenas aumenta a eficiência, mas também supera significativamente os métodos de poda existentes na geração de linguagem em diversas tarefas. O código está disponível em https://github.com/liuzuyan/ElasticCache

English

In the field of instruction-following large vision-language models (LVLMs), the efficient deployment of these models faces challenges, notably due to the high memory demands of their key-value (KV) caches. Conventional cache management strategies for LLMs focus on cache eviction, which often fails to address the specific needs of multimodal instruction-following models. Recognizing this gap, in this paper, we introduce Elastic Cache, a novel approach that benefits from applying distinct acceleration methods for instruction encoding and output generation stages. We investigate the metrics of importance in different stages and propose an importance-driven cache merging strategy to prune redundancy caches. Instead of discarding less important caches, our strategy identifies important key/value vectors as anchor points. Surrounding less important caches are then merged with these anchors, enhancing the preservation of contextual information in the KV caches while yielding an arbitrary acceleration ratio. For instruction encoding, we utilize the frequency to evaluate the importance of caches. Regarding output generation, we prioritize tokens based on their distance with an offset, by which both the initial and most recent tokens are retained. Results on a range of LVLMs demonstrate that Elastic Cache not only boosts efficiency but also notably outperforms existing pruning methods in language generation across various tasks. Code is available at https://github.com/liuzuyan/ElasticCache

Inferência Eficiente de Modelos de Visão para Seguir Instruções com Cache Elástico

Efficient Inference of Vision Instruction-Following Models with Elastic Cache

Resumo

Summary

Support

Support