Эффективное управление моделями рассуждений посредством вмешательства в процесс мышления
Effectively Controlling Reasoning Models through Thinking Intervention
March 31, 2025
Авторы: Tong Wu, Chong Xiang, Jiachen T. Wang, Prateek Mittal
cs.AI
Аннотация
Усовершенствованные модели больших языковых моделей (LLM) с поддержкой рассуждений явно генерируют промежуточные шаги рассуждений перед выдачей окончательных ответов, что помогает модели преуспевать в решении сложных задач. В данной статье мы показываем, что этот новый подход к генерации предоставляет уникальную возможность для более детального контроля над поведением модели. Мы предлагаем "Вмешательство в мышление" (Thinking Intervention) — новую парадигму, предназначенную для явного управления внутренними процессами рассуждений LLM путем стратегического добавления или изменения определенных "токенов мышления". Мы проводим всесторонние оценки на множестве задач, включая следование инструкциям на IFEval, анализ иерархии инструкций на SEP и обеспечение безопасности на XSTest и SORRY-Bench. Наши результаты демонстрируют, что "Вмешательство в мышление" значительно превосходит базовые подходы с использованием промптов, достигая улучшения точности на 6,7% в сценариях следования инструкциям, повышения на 15,4% в анализе иерархии инструкций и увеличения на 40,0% частоты отказов на небезопасные запросы при использовании открытых моделей DeepSeek R1. В целом, наша работа открывает перспективное новое направление исследований для управления LLM с поддержкой рассуждений.
English
Reasoning-enhanced large language models (LLMs) explicitly generate
intermediate reasoning steps prior to generating final answers, helping the
model excel in complex problem-solving. In this paper, we demonstrate that this
emerging generation framework offers a unique opportunity for more fine-grained
control over model behavior. We propose Thinking Intervention, a novel paradigm
designed to explicitly guide the internal reasoning processes of LLMs by
strategically inserting or revising specific thinking tokens. We conduct
comprehensive evaluations across multiple tasks, including instruction
following on IFEval, instruction hierarchy on SEP, and safety alignment on
XSTest and SORRY-Bench. Our results demonstrate that Thinking Intervention
significantly outperforms baseline prompting approaches, achieving up to 6.7%
accuracy gains in instruction-following scenarios, 15.4% improvements in
reasoning about instruction hierarchies, and a 40.0% increase in refusal rates
for unsafe prompts using open-source DeepSeek R1 models. Overall, our work
opens a promising new research avenue for controlling reasoning LLMs.Summary
AI-Generated Summary