ChatPaper.aiChatPaper

KV Cache Steering per Indurre il Ragionamento nei Piccoli Modelli Linguistici

KV Cache Steering for Inducing Reasoning in Small Language Models

July 11, 2025
Autori: Max Belitsky, Dawid J. Kopiczko, Michael Dorkenwald, M. Jehanzeb Mirza, Cees G. M. Snoek, Yuki M. Asano
cs.AI

Abstract

Proponiamo il cache steering, un metodo leggero per il controllo implicito di modelli linguistici attraverso un intervento one-shot applicato direttamente alla cache chiave-valore. Per validarne l'efficacia, applichiamo il cache steering per indurre il ragionamento a catena di pensiero in piccoli modelli linguistici. Il nostro approccio sfrutta tracce di ragionamento generate da GPT-4o per costruire vettori di controllo che spostano il comportamento del modello verso un ragionamento più esplicito e multi-step, senza necessità di fine-tuning o modifiche al prompt. Valutazioni sperimentali su diversi benchmark di ragionamento dimostrano che il cache steering migliora sia la struttura qualitativa del ragionamento del modello che le prestazioni quantitative nei compiti. Rispetto alle precedenti tecniche di controllo delle attivazioni che richiedono interventi continui, il nostro cache steering one-shot offre vantaggi sostanziali in termini di stabilità degli iperparametri, efficienza in fase di inferenza e facilità di integrazione, rendendolo una soluzione più robusta e pratica per la generazione controllata.
English
We propose cache steering, a lightweight method for implicit steering of language models via a one-shot intervention applied directly to the key-value cache. To validate its effectiveness, we apply cache steering to induce chain-of-thought reasoning in small language models. Our approach leverages GPT-4o-generated reasoning traces to construct steering vectors that shift model behavior toward more explicit, multi-step reasoning without fine-tuning or prompt modifications. Experimental evaluations on diverse reasoning benchmarks demonstrate that cache steering improves both the qualitative structure of model reasoning and quantitative task performance. Compared to prior activation steering techniques that require continuous interventions, our one-shot cache steering offers substantial advantages in terms of hyperparameter stability, inference-time efficiency, and ease of integration, making it a more robust and practical solution for controlled generation.
PDF393July 14, 2025