ChatPaper.aiChatPaper

Contrôle efficace des modèles de raisonnement par intervention cognitive

Effectively Controlling Reasoning Models through Thinking Intervention

March 31, 2025
Auteurs: Tong Wu, Chong Xiang, Jiachen T. Wang, Prateek Mittal
cs.AI

Résumé

Les grands modèles de langage (LLM) améliorés pour le raisonnement génèrent explicitement des étapes de raisonnement intermédiaires avant de produire des réponses finales, ce qui permet au modèle d'exceller dans la résolution de problèmes complexes. Dans cet article, nous démontrons que ce cadre de génération émergent offre une opportunité unique pour un contrôle plus fin du comportement des modèles. Nous proposons l'Intervention de Pensée, un nouveau paradigme conçu pour guider explicitement les processus de raisonnement internes des LLM en insérant ou en révisant stratégiquement des tokens de pensée spécifiques. Nous menons des évaluations approfondies sur plusieurs tâches, notamment le suivi d'instructions sur IFEval, la hiérarchie des instructions sur SEP, et l'alignement de sécurité sur XSTest et SORRY-Bench. Nos résultats montrent que l'Intervention de Pensée surpasse significativement les approches de prompting de base, avec des gains de précision allant jusqu'à 6,7 % dans les scénarios de suivi d'instructions, des améliorations de 15,4 % dans le raisonnement sur les hiérarchies d'instructions, et une augmentation de 40,0 % des taux de refus pour les prompts non sécurisés en utilisant les modèles open-source DeepSeek R1. Globalement, notre travail ouvre une nouvelle voie de recherche prometteuse pour le contrôle des LLM de raisonnement.
English
Reasoning-enhanced large language models (LLMs) explicitly generate intermediate reasoning steps prior to generating final answers, helping the model excel in complex problem-solving. In this paper, we demonstrate that this emerging generation framework offers a unique opportunity for more fine-grained control over model behavior. We propose Thinking Intervention, a novel paradigm designed to explicitly guide the internal reasoning processes of LLMs by strategically inserting or revising specific thinking tokens. We conduct comprehensive evaluations across multiple tasks, including instruction following on IFEval, instruction hierarchy on SEP, and safety alignment on XSTest and SORRY-Bench. Our results demonstrate that Thinking Intervention significantly outperforms baseline prompting approaches, achieving up to 6.7% accuracy gains in instruction-following scenarios, 15.4% improvements in reasoning about instruction hierarchies, and a 40.0% increase in refusal rates for unsafe prompts using open-source DeepSeek R1 models. Overall, our work opens a promising new research avenue for controlling reasoning LLMs.

Summary

AI-Generated Summary

PDF194April 1, 2025