Konformität versus Sensibilität: Zur Steuerbarkeit des Denkens in großen Sprachmodellen

Zusammenfassung

Große Sprachmodelle (LLMs) erwerben bekanntermaßen Reasoning-Fähigkeiten durch gemeinsame Inferenzmuster in den Vortrainingsdaten, die durch Chain-of-Thought (CoT)-Methoden weiter hervorgelockt werden. Ob sich jedoch fundamentale Reasoning-Muster wie Induktion, Deduktion und Abduktion von konkreten Problemstellungen entkoppeln lassen, bleibt eine kritische Herausforderung für die Modellsteuerbarkeit und für das Verständnis der Kontrollierbarkeit von Reasoning-Prozessen. In diesem Artikel präsentieren wir die erste systematische Untersuchung dieses Problems durch die Linse von Reasoning-Konflikten: eine explizite Spannung zwischen parametrischen und kontextuellen Informationen, die durch das Vorschreiben logischer Schemata ausgelöst wird, die von den für eine Zielaufgabe erwarteten Schemata abweichen. Unsere Auswertung zeigt, dass LLMs konsequent Sinnhaftigkeit über Befolgung stellen und taskspezifische Reasoning-Muster bevorzugen, selbst bei widersprüchlichen Anweisungen. Bemerkenswerterweise wird die Aufgaben-Genauigkeit nicht strikt durch die Sinnhaftigkeit bestimmt; Modelle behalten oft eine hohe Leistung bei, selbst wenn sie widersprüchliche Muster verwenden, was auf eine Abhängigkeit von internalisiertem parametrischem Gedächtnis hindeutet, die mit der Modellgröße zunimmt. Wir zeigen weiter, dass Reasoning-Konflikte intern detektierbar sind, da die Konfidenzwerte während konflikthafter Episoden signifikant sinken. Probing-Experimente bestätigen, dass Reasoning-Typen linear in den mittleren bis späten Schichten encodiert sind, was auf das Potenzial für eine Kontrollierbarkeit auf Aktivierungsebene hindeutet. Gestützt auf diese Erkenntnisse lenken wir Modelle in Richtung Befolgung und steigern die Anweisungsbefolgung um bis zu 29%. Insgesamt zeigen unsere Ergebnisse, dass, obwohl das LLM-Reasoning an konkrete Instanzen gebunden ist, aktive mechanistische Interventionen logische Schemata effektiv von Daten entkoppeln können, was einen Weg zu verbesserter Steuerbarkeit, Zuverlässigkeit und Generalisierbarkeit eröffnet.

English

Large Language Models (LLMs) are known to acquire reasoning capabilities through shared inference patterns in pre-training data, which are further elicited via Chain-of-Thought (CoT) practices. However, whether fundamental reasoning patterns, such as induction, deduction, and abduction, can be decoupled from specific problem instances remains a critical challenge for model controllability, and for shedding light on reasoning controllability. In this paper, we present the first systematic investigation of this problem through the lens of reasoning conflicts: an explicit tension between parametric and contextual information induced by mandating logical schemata that deviate from those expected for a target task. Our evaluation reveals that LLMs consistently prioritize sensibility over compliance, favoring task-appropriate reasoning patterns despite conflicting instructions. Notably, task accuracy is not strictly determined by sensibility, with models often maintaining high performance even when using conflicting patterns, suggesting a reliance on internalized parametric memory that increases with model size. We further demonstrate that reasoning conflicts are internally detectable, as confidence scores significantly drop during conflicting episodes. Probing experiments confirm that reasoning types are linearly encoded from middle-to-late layers, indicating the potential for activation-level controllability. Leveraging these insights, we steer models towards compliance, increasing instruction following by up to 29%. Overall, our findings establish that while LLM reasoning is anchored to concrete instances, active mechanistic interventions can effectively decouple logical schemata from data, offering a path toward improved controllability, faithfulness, and generalizability.

Konformität versus Sensibilität: Zur Steuerbarkeit des Denkens in großen Sprachmodellen

Compliance versus Sensibility: On the Reasoning Controllability in Large Language Models

Zusammenfassung

Support