Управление кэшем KV для индукции рассуждений в малых языковых моделях

Аннотация

Мы предлагаем метод управления кэшем (cache steering) — легковесный способ неявного управления языковыми моделями посредством одноразового вмешательства, применяемого непосредственно к ключево-знаковому кэшу. Для проверки его эффективности мы применяем управление кэшем для индукции цепочек рассуждений (chain-of-thought reasoning) в небольших языковых моделях. Наш подход использует сгенерированные GPT-4o траектории рассуждений для построения управляющих векторов, которые смещают поведение модели в сторону более явного, многошагового рассуждения без необходимости тонкой настройки или изменения промптов. Экспериментальные оценки на различных тестах рассуждений демонстрируют, что управление кэшем улучшает как качественную структуру рассуждений модели, так и количественные показатели выполнения задач. По сравнению с предыдущими методами управления активациями, требующими непрерывного вмешательства, наше одноразовое управление кэшем предлагает существенные преимущества в плане стабильности гиперпараметров, эффективности на этапе вывода и простоты интеграции, что делает его более надежным и практичным решением для контролируемой генерации.

English

We propose cache steering, a lightweight method for implicit steering of language models via a one-shot intervention applied directly to the key-value cache. To validate its effectiveness, we apply cache steering to induce chain-of-thought reasoning in small language models. Our approach leverages GPT-4o-generated reasoning traces to construct steering vectors that shift model behavior toward more explicit, multi-step reasoning without fine-tuning or prompt modifications. Experimental evaluations on diverse reasoning benchmarks demonstrate that cache steering improves both the qualitative structure of model reasoning and quantitative task performance. Compared to prior activation steering techniques that require continuous interventions, our one-shot cache steering offers substantial advantages in terms of hyperparameter stability, inference-time efficiency, and ease of integration, making it a more robust and practical solution for controlled generation.

Управление кэшем KV для индукции рассуждений в малых языковых моделях

KV Cache Steering for Inducing Reasoning in Small Language Models

Аннотация

Support