Control efectivo de modelos de razonamiento mediante intervención del pensamiento
Effectively Controlling Reasoning Models through Thinking Intervention
March 31, 2025
Autores: Tong Wu, Chong Xiang, Jiachen T. Wang, Prateek Mittal
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs) mejorados con razonamiento generan explícitamente pasos intermedios de razonamiento antes de producir respuestas finales, lo que ayuda al modelo a destacar en la resolución de problemas complejos. En este artículo, demostramos que este marco de generación emergente ofrece una oportunidad única para un control más granular sobre el comportamiento del modelo. Proponemos Intervención de Pensamiento, un paradigma novedoso diseñado para guiar explícitamente los procesos internos de razonamiento de los LLMs mediante la inserción o revisión estratégica de tokens de pensamiento específicos. Realizamos evaluaciones exhaustivas en múltiples tareas, incluyendo seguimiento de instrucciones en IFEval, jerarquía de instrucciones en SEP, y alineación de seguridad en XSTest y SORRY-Bench. Nuestros resultados demuestran que la Intervención de Pensamiento supera significativamente los enfoques de prompting basales, logrando mejoras de hasta un 6.7% en precisión en escenarios de seguimiento de instrucciones, un 15.4% en razonamiento sobre jerarquías de instrucciones, y un aumento del 40.0% en las tasas de rechazo para indicaciones inseguras utilizando los modelos de código abierto DeepSeek R1. En general, nuestro trabajo abre una nueva y prometedora vía de investigación para el control de LLMs de razonamiento.
English
Reasoning-enhanced large language models (LLMs) explicitly generate
intermediate reasoning steps prior to generating final answers, helping the
model excel in complex problem-solving. In this paper, we demonstrate that this
emerging generation framework offers a unique opportunity for more fine-grained
control over model behavior. We propose Thinking Intervention, a novel paradigm
designed to explicitly guide the internal reasoning processes of LLMs by
strategically inserting or revising specific thinking tokens. We conduct
comprehensive evaluations across multiple tasks, including instruction
following on IFEval, instruction hierarchy on SEP, and safety alignment on
XSTest and SORRY-Bench. Our results demonstrate that Thinking Intervention
significantly outperforms baseline prompting approaches, achieving up to 6.7%
accuracy gains in instruction-following scenarios, 15.4% improvements in
reasoning about instruction hierarchies, and a 40.0% increase in refusal rates
for unsafe prompts using open-source DeepSeek R1 models. Overall, our work
opens a promising new research avenue for controlling reasoning LLMs.Summary
AI-Generated Summary