ChatPaper.aiChatPaper

KV-Cache-Steuerung zur Induktion von Schlussfolgerungen in kleinen Sprachmodellen

KV Cache Steering for Inducing Reasoning in Small Language Models

July 11, 2025
papers.authors: Max Belitsky, Dawid J. Kopiczko, Michael Dorkenwald, M. Jehanzeb Mirza, Cees G. M. Snoek, Yuki M. Asano
cs.AI

papers.abstract

Wir schlagen Cache-Steuerung vor, eine leichtgewichtige Methode zur impliziten Steuerung von Sprachmodellen durch eine einmalige Intervention, die direkt auf den Schlüssel-Wert-Cache angewendet wird. Um ihre Wirksamkeit zu validieren, wenden wir Cache-Steuerung an, um Kettenfolge-Denken in kleinen Sprachmodellen zu induzieren. Unser Ansatz nutzt von GPT-4o generierte Denkspuren, um Steuerungsvektoren zu konstruieren, die das Modellverhalten in Richtung expliziteren, mehrstufigen Denkens verschieben, ohne Feinabstimmung oder Änderungen an den Eingabeaufforderungen vorzunehmen. Experimentelle Auswertungen auf verschiedenen Denk-Benchmarks zeigen, dass Cache-Steuerung sowohl die qualitative Struktur des Modell-Denkens als auch die quantitative Aufgabenleistung verbessert. Im Vergleich zu früheren Aktivierungssteuerungstechniken, die kontinuierliche Interventionen erfordern, bietet unsere einmalige Cache-Steuerung erhebliche Vorteile in Bezug auf Hyperparameter-Stabilität, Inferenz-Effizienz und Integrationsfreundlichkeit, was sie zu einer robusteren und praktischeren Lösung für kontrollierte Generierung macht.
English
We propose cache steering, a lightweight method for implicit steering of language models via a one-shot intervention applied directly to the key-value cache. To validate its effectiveness, we apply cache steering to induce chain-of-thought reasoning in small language models. Our approach leverages GPT-4o-generated reasoning traces to construct steering vectors that shift model behavior toward more explicit, multi-step reasoning without fine-tuning or prompt modifications. Experimental evaluations on diverse reasoning benchmarks demonstrate that cache steering improves both the qualitative structure of model reasoning and quantitative task performance. Compared to prior activation steering techniques that require continuous interventions, our one-shot cache steering offers substantial advantages in terms of hyperparameter stability, inference-time efficiency, and ease of integration, making it a more robust and practical solution for controlled generation.
PDF333July 14, 2025