ChatPaper.aiChatPaper

Direcionamento de Cache KV para Indução de Raciocínio em Modelos de Linguagem Pequenos

KV Cache Steering for Inducing Reasoning in Small Language Models

July 11, 2025
Autores: Max Belitsky, Dawid J. Kopiczko, Michael Dorkenwald, M. Jehanzeb Mirza, Cees G. M. Snoek, Yuki M. Asano
cs.AI

Resumo

Propomos o direcionamento de cache, um método leve para o direcionamento implícito de modelos de linguagem por meio de uma intervenção única aplicada diretamente ao cache de chave-valor. Para validar sua eficácia, aplicamos o direcionamento de cache para induzir raciocínio em cadeia em modelos de linguagem pequenos. Nossa abordagem utiliza traços de raciocínio gerados pelo GPT-4o para construir vetores de direcionamento que alteram o comportamento do modelo em direção a um raciocínio mais explícito e em múltiplas etapas, sem a necessidade de ajuste fino ou modificações no prompt. Avaliações experimentais em diversos benchmarks de raciocínio demonstram que o direcionamento de cache melhora tanto a estrutura qualitativa do raciocínio do modelo quanto o desempenho quantitativo em tarefas. Em comparação com técnicas anteriores de direcionamento de ativação que exigem intervenções contínuas, nosso direcionamento de cache único oferece vantagens significativas em termos de estabilidade de hiperparâmetros, eficiência no tempo de inferência e facilidade de integração, tornando-o uma solução mais robusta e prática para geração controlada.
English
We propose cache steering, a lightweight method for implicit steering of language models via a one-shot intervention applied directly to the key-value cache. To validate its effectiveness, we apply cache steering to induce chain-of-thought reasoning in small language models. Our approach leverages GPT-4o-generated reasoning traces to construct steering vectors that shift model behavior toward more explicit, multi-step reasoning without fine-tuning or prompt modifications. Experimental evaluations on diverse reasoning benchmarks demonstrate that cache steering improves both the qualitative structure of model reasoning and quantitative task performance. Compared to prior activation steering techniques that require continuous interventions, our one-shot cache steering offers substantial advantages in terms of hyperparameter stability, inference-time efficiency, and ease of integration, making it a more robust and practical solution for controlled generation.
PDF403July 14, 2025