Inferencia eficiente de modelos de seguimiento de instrucciones visuales con caché elástica.

Resumen

En el campo de los modelos grandes de visión-lenguaje (LVLMs) que siguen instrucciones, la implementación eficiente de estos modelos enfrenta desafíos, principalmente debido a las altas demandas de memoria de sus cachés clave-valor (KV). Las estrategias convencionales de gestión de caché para LLMs se centran en la evicción de caché, lo cual a menudo no aborda las necesidades específicas de los modelos multimodales que siguen instrucciones. Reconociendo esta brecha, en este artículo presentamos Elastic Cache, un enfoque novedoso que se beneficia de la aplicación de métodos de aceleración distintos para las etapas de codificación de instrucciones y generación de salida. Investigamos las métricas de importancia en diferentes etapas y proponemos una estrategia de fusión de caché impulsada por la importancia para podar las cachés redundantes. En lugar de descartar las cachés menos importantes, nuestra estrategia identifica vectores clave/valor importantes como puntos de anclaje. Las cachés menos importantes circundantes se fusionan entonces con estos puntos de anclaje, mejorando la preservación de la información contextual en las cachés KV y generando una proporción de aceleración arbitraria. Para la codificación de instrucciones, utilizamos la frecuencia para evaluar la importancia de las cachés. En cuanto a la generación de salida, priorizamos los tokens en función de su distancia con un desplazamiento, mediante el cual se retienen tanto los tokens iniciales como los más recientes. Los resultados en una variedad de LVLMs demuestran que Elastic Cache no solo mejora la eficiencia, sino que también supera notablemente a los métodos de poda existentes en la generación de lenguaje en diversas tareas. El código está disponible en https://github.com/liuzuyan/ElasticCache

English

In the field of instruction-following large vision-language models (LVLMs), the efficient deployment of these models faces challenges, notably due to the high memory demands of their key-value (KV) caches. Conventional cache management strategies for LLMs focus on cache eviction, which often fails to address the specific needs of multimodal instruction-following models. Recognizing this gap, in this paper, we introduce Elastic Cache, a novel approach that benefits from applying distinct acceleration methods for instruction encoding and output generation stages. We investigate the metrics of importance in different stages and propose an importance-driven cache merging strategy to prune redundancy caches. Instead of discarding less important caches, our strategy identifies important key/value vectors as anchor points. Surrounding less important caches are then merged with these anchors, enhancing the preservation of contextual information in the KV caches while yielding an arbitrary acceleration ratio. For instruction encoding, we utilize the frequency to evaluate the importance of caches. Regarding output generation, we prioritize tokens based on their distance with an offset, by which both the initial and most recent tokens are retained. Results on a range of LVLMs demonstrate that Elastic Cache not only boosts efficiency but also notably outperforms existing pruning methods in language generation across various tasks. Code is available at https://github.com/liuzuyan/ElasticCache

Inferencia eficiente de modelos de seguimiento de instrucciones visuales con caché elástica.

Efficient Inference of Vision Instruction-Following Models with Elastic Cache

Resumen

Summary

Support

Support