Effektive Steuerung von Reasoning-Modellen durch Denkintervention
Effectively Controlling Reasoning Models through Thinking Intervention
March 31, 2025
Autoren: Tong Wu, Chong Xiang, Jiachen T. Wang, Prateek Mittal
cs.AI
Zusammenfassung
Vernunftgesteuerte große Sprachmodelle (LLMs) erzeugen explizit Zwischenschritte der Argumentation, bevor sie endgültige Antworten generieren, was dem Modell hilft, bei komplexen Problemlösungen zu glänzen. In diesem Artikel zeigen wir, dass dieser aufkommende Generierungsrahmen eine einzigartige Gelegenheit für eine feinere Kontrolle des Modellverhaltens bietet. Wir schlagen Thinking Intervention vor, ein neuartiges Paradigma, das darauf abzielt, die internen Argumentationsprozesse von LLMs explizit zu steuern, indem strategisch spezifische Denk-Tokens eingefügt oder überarbeitet werden. Wir führen umfassende Bewertungen über mehrere Aufgaben hinweg durch, einschließlich der Befolgung von Anweisungen auf IFEval, der Hierarchie von Anweisungen auf SEP und der Sicherheitsausrichtung auf XSTest und SORRY-Bench. Unsere Ergebnisse zeigen, dass Thinking Intervention die Baseline-Prompting-Ansätze deutlich übertrifft, mit Genauigkeitssteigerungen von bis zu 6,7 % in Szenarien der Anweisungsbefolgung, Verbesserungen von 15,4 % bei der Argumentation über Anweisungshierarchien und einer Steigerung der Ablehnungsraten um 40,0 % für unsichere Prompts unter Verwendung der Open-Source-Modelle DeepSeek R1. Insgesamt eröffnet unsere Arbeit einen vielversprechenden neuen Forschungsweg zur Steuerung von argumentationsfähigen LLMs.
English
Reasoning-enhanced large language models (LLMs) explicitly generate
intermediate reasoning steps prior to generating final answers, helping the
model excel in complex problem-solving. In this paper, we demonstrate that this
emerging generation framework offers a unique opportunity for more fine-grained
control over model behavior. We propose Thinking Intervention, a novel paradigm
designed to explicitly guide the internal reasoning processes of LLMs by
strategically inserting or revising specific thinking tokens. We conduct
comprehensive evaluations across multiple tasks, including instruction
following on IFEval, instruction hierarchy on SEP, and safety alignment on
XSTest and SORRY-Bench. Our results demonstrate that Thinking Intervention
significantly outperforms baseline prompting approaches, achieving up to 6.7%
accuracy gains in instruction-following scenarios, 15.4% improvements in
reasoning about instruction hierarchies, and a 40.0% increase in refusal rates
for unsafe prompts using open-source DeepSeek R1 models. Overall, our work
opens a promising new research avenue for controlling reasoning LLMs.Summary
AI-Generated Summary