Controlando Eficazmente Modelos de Raciocínio por meio de Intervenção no Pensamento
Effectively Controlling Reasoning Models through Thinking Intervention
March 31, 2025
Autores: Tong Wu, Chong Xiang, Jiachen T. Wang, Prateek Mittal
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) aprimorados para raciocínio geram explicitamente etapas intermediárias de raciocínio antes de produzir respostas finais, ajudando o modelo a se destacar na resolução de problemas complexos. Neste artigo, demonstramos que essa nova abordagem de geração oferece uma oportunidade única para um controle mais refinado do comportamento do modelo. Propomos a Intervenção de Pensamento, um paradigma inovador projetado para guiar explicitamente os processos internos de raciocínio dos LLMs por meio da inserção ou revisão estratégica de tokens de pensamento específicos. Realizamos avaliações abrangentes em diversas tarefas, incluindo seguimento de instruções no IFEval, hierarquia de instruções no SEP e alinhamento de segurança no XSTest e SORRY-Bench. Nossos resultados mostram que a Intervenção de Pensamento supera significativamente as abordagens de prompt basais, alcançando ganhos de até 6,7% em precisão em cenários de seguimento de instruções, melhorias de 15,4% no raciocínio sobre hierarquias de instruções e um aumento de 40,0% nas taxas de recusa para prompts inseguros usando os modelos open-source DeepSeek R1. No geral, nosso trabalho abre uma nova e promissora linha de pesquisa para o controle de LLMs de raciocínio.
English
Reasoning-enhanced large language models (LLMs) explicitly generate
intermediate reasoning steps prior to generating final answers, helping the
model excel in complex problem-solving. In this paper, we demonstrate that this
emerging generation framework offers a unique opportunity for more fine-grained
control over model behavior. We propose Thinking Intervention, a novel paradigm
designed to explicitly guide the internal reasoning processes of LLMs by
strategically inserting or revising specific thinking tokens. We conduct
comprehensive evaluations across multiple tasks, including instruction
following on IFEval, instruction hierarchy on SEP, and safety alignment on
XSTest and SORRY-Bench. Our results demonstrate that Thinking Intervention
significantly outperforms baseline prompting approaches, achieving up to 6.7%
accuracy gains in instruction-following scenarios, 15.4% improvements in
reasoning about instruction hierarchies, and a 40.0% increase in refusal rates
for unsafe prompts using open-source DeepSeek R1 models. Overall, our work
opens a promising new research avenue for controlling reasoning LLMs.Summary
AI-Generated Summary