Effectief Beheersen van Redeneermodellen door Denkinterventie
Effectively Controlling Reasoning Models through Thinking Intervention
March 31, 2025
Auteurs: Tong Wu, Chong Xiang, Jiachen T. Wang, Prateek Mittal
cs.AI
Samenvatting
Redenering-verbeterde grote taalmodellen (LLMs) genereren expliciet tussenliggende redeneerstappen voordat ze definitieve antwoorden produceren, wat het model helpt uit te blinken in complexe probleemoplossing. In dit artikel tonen we aan dat dit opkomende generatieraamwerk een unieke mogelijkheid biedt voor meer gedetailleerde controle over modelgedrag. We stellen Denkinterventie voor, een nieuw paradigma dat is ontworpen om de interne redeneerprocessen van LLMs expliciet te begeleiden door strategisch specifieke denktokens in te voegen of te herzien. We voeren uitgebreide evaluaties uit over meerdere taken, waaronder instructieopvolging op IFEval, instructiehiërarchie op SEP, en veiligheidsafstemming op XSTest en SORRY-Bench. Onze resultaten laten zien dat Denkinterventie aanzienlijk beter presteert dan baseline-promptingbenaderingen, met nauwkeurigheidswinsten tot 6,7% in scenario's van instructieopvolging, 15,4% verbeteringen in het redeneren over instructiehiërarchieën, en een toename van 40,0% in weigeringspercentages voor onveilige prompts met behulp van open-source DeepSeek R1-modellen. Over het geheel genomen opent ons werk een veelbelovende nieuwe onderzoeksrichting voor het beheersen van redenerende LLMs.
English
Reasoning-enhanced large language models (LLMs) explicitly generate
intermediate reasoning steps prior to generating final answers, helping the
model excel in complex problem-solving. In this paper, we demonstrate that this
emerging generation framework offers a unique opportunity for more fine-grained
control over model behavior. We propose Thinking Intervention, a novel paradigm
designed to explicitly guide the internal reasoning processes of LLMs by
strategically inserting or revising specific thinking tokens. We conduct
comprehensive evaluations across multiple tasks, including instruction
following on IFEval, instruction hierarchy on SEP, and safety alignment on
XSTest and SORRY-Bench. Our results demonstrate that Thinking Intervention
significantly outperforms baseline prompting approaches, achieving up to 6.7%
accuracy gains in instruction-following scenarios, 15.4% improvements in
reasoning about instruction hierarchies, and a 40.0% increase in refusal rates
for unsafe prompts using open-source DeepSeek R1 models. Overall, our work
opens a promising new research avenue for controlling reasoning LLMs.Summary
AI-Generated Summary