Armazenamento em cache adaptativo de prompts semânticos com VectorQ
Adaptive Semantic Prompt Caching with VectorQ
February 6, 2025
Autores: Luis Gaspar Schroeder, Shu Liu, Alejandro Cuadron, Mark Zhao, Stephan Krusche, Alfons Kemper, Matei Zaharia, Joseph E. Gonzalez
cs.AI
Resumo
As caches semânticas reduzem a latência e o custo da inferência de grandes modelos de linguagem (LLM) reutilizando respostas geradas pelo LLM armazenadas para prompts semanticamente similares. Métricas de similaridade de vetores atribuem uma pontuação numérica para quantificar a similaridade entre um prompt incorporado e seu vizinho mais próximo no cache. Sistemas existentes dependem de um limiar estático para classificar se a pontuação de similaridade é suficientemente alta para resultar em um acerto no cache. Mostramos que este limiar único é insuficiente para diferentes prompts. Propomos o VectorQ, um framework para aprender regiões de limiar específicas para cada incorporação que se adaptam à complexidade e incerteza de uma incorporação. Através de avaliações em uma combinação de quatro conjuntos de dados diversos, demonstramos que o VectorQ consistentemente supera os sistemas de ponta em todos os limiares estáticos, alcançando aumentos de até 12 vezes na taxa de acertos no cache e reduções na taxa de erros de até 92%.
English
Semantic prompt caches reduce the latency and cost of large language model
(LLM) inference by reusing cached LLM-generated responses for semantically
similar prompts. Vector similarity metrics assign a numerical score to quantify
the similarity between an embedded prompt and its nearest neighbor in the
cache. Existing systems rely on a static threshold to classify whether the
similarity score is sufficiently high to result in a cache hit. We show that
this one-size-fits-all threshold is insufficient across different prompts. We
propose VectorQ, a framework to learn embedding-specific threshold regions that
adapt to the complexity and uncertainty of an embedding. Through evaluations on
a combination of four diverse datasets, we show that VectorQ consistently
outperforms state-of-the-art systems across all static thresholds, achieving up
to 12x increases in cache hit rate and error rate reductions up to 92%.Summary
AI-Generated Summary