Armazenamento em cache adaptativo de prompts semânticos com VectorQ

Resumo

As caches semânticas reduzem a latência e o custo da inferência de grandes modelos de linguagem (LLM) reutilizando respostas geradas pelo LLM armazenadas para prompts semanticamente similares. Métricas de similaridade de vetores atribuem uma pontuação numérica para quantificar a similaridade entre um prompt incorporado e seu vizinho mais próximo no cache. Sistemas existentes dependem de um limiar estático para classificar se a pontuação de similaridade é suficientemente alta para resultar em um acerto no cache. Mostramos que este limiar único é insuficiente para diferentes prompts. Propomos o VectorQ, um framework para aprender regiões de limiar específicas para cada incorporação que se adaptam à complexidade e incerteza de uma incorporação. Através de avaliações em uma combinação de quatro conjuntos de dados diversos, demonstramos que o VectorQ consistentemente supera os sistemas de ponta em todos os limiares estáticos, alcançando aumentos de até 12 vezes na taxa de acertos no cache e reduções na taxa de erros de até 92%.

English

Semantic prompt caches reduce the latency and cost of large language model (LLM) inference by reusing cached LLM-generated responses for semantically similar prompts. Vector similarity metrics assign a numerical score to quantify the similarity between an embedded prompt and its nearest neighbor in the cache. Existing systems rely on a static threshold to classify whether the similarity score is sufficiently high to result in a cache hit. We show that this one-size-fits-all threshold is insufficient across different prompts. We propose VectorQ, a framework to learn embedding-specific threshold regions that adapt to the complexity and uncertainty of an embedding. Through evaluations on a combination of four diverse datasets, we show that VectorQ consistently outperforms state-of-the-art systems across all static thresholds, achieving up to 12x increases in cache hit rate and error rate reductions up to 92%.

Armazenamento em cache adaptativo de prompts semânticos com VectorQ

Adaptive Semantic Prompt Caching with VectorQ

Resumo

Support