Naleving versus Gevoeligheid: Over de Beheersbaarheid van Redeneren in Grote Taalmodellen

Samenvatting

Grootschalige taalmodelen (LLM's) verwerven redeneervaardigheden door gedeelde inferentiepatronen in vooraf getrainde data, die verder worden opgeroepen via Chain-of-Thought (CoT) praktijken. Of fundamentele redeneerpatronen, zoals inductie, deductie en abductie, echter kunnen worden losgekoppeld van specifieke probleeminstanties blijft een kritieke uitdaging voor modelbeheersbaarheid en voor het verduidelijken van de beheersbaarheid van redeneren. In dit artikel presenteren we de eerste systematische onderzoek naar dit probleem door de lens van redeneerconflicten: een expliciete spanning tussen parametrische en contextuele informatie, veroorzaakt door het opleggen van logische schema's die afwijken van de verwachte patronen voor een bepaalde taak. Onze evaluatie toont aan dat LLM's consequent logische zinvolheid boven instructienaleving verkiezen, waarbij ze de voorkeur geven aan taakgeschikte redeneerpatronen ondanks tegenstrijdige instructies. Opmerkelijk genoeg wordt taaknauwkeurigheid niet strikt bepaald door zinvolheid; modellen behouden vaak een hoge prestatiewaarde zelfs bij gebruik van conflicterende patronen, wat wijst op een afhankelijkheid van geïnternaliseerd parametrisch geheugen dat toeneemt met de modelgrootte. We tonen verder aan dat redeneerconflicten intern detecteerbaar zijn, aangezien betrouwbaarheidsscores significant dalen tijdens conflicterende episodes. Probing-experimenten bevestigen dat redeneertypen lineair gecodeerd zijn van middelste tot late lagen, wat wijst op het potentieel voor beheersbaarheid op activatieniveau. Gebruikmakend van deze inzichten, sturen we modellen naar naleving toe, waardoor het volgen van instructies met tot 29% toeneemt. Over het geheel genomen tonen onze bevindingen aan dat hoewel LLM-redenering verankerd is aan concrete instanties, actieve mechanistische interventies logische schema's effectief kunnen loskoppelen van data, wat een pad biedt naar verbeterde beheersbaarheid, betrouwbaarheid en generaliseerbaarheid.

English

Large Language Models (LLMs) are known to acquire reasoning capabilities through shared inference patterns in pre-training data, which are further elicited via Chain-of-Thought (CoT) practices. However, whether fundamental reasoning patterns, such as induction, deduction, and abduction, can be decoupled from specific problem instances remains a critical challenge for model controllability, and for shedding light on reasoning controllability. In this paper, we present the first systematic investigation of this problem through the lens of reasoning conflicts: an explicit tension between parametric and contextual information induced by mandating logical schemata that deviate from those expected for a target task. Our evaluation reveals that LLMs consistently prioritize sensibility over compliance, favoring task-appropriate reasoning patterns despite conflicting instructions. Notably, task accuracy is not strictly determined by sensibility, with models often maintaining high performance even when using conflicting patterns, suggesting a reliance on internalized parametric memory that increases with model size. We further demonstrate that reasoning conflicts are internally detectable, as confidence scores significantly drop during conflicting episodes. Probing experiments confirm that reasoning types are linearly encoded from middle-to-late layers, indicating the potential for activation-level controllability. Leveraging these insights, we steer models towards compliance, increasing instruction following by up to 29%. Overall, our findings establish that while LLM reasoning is anchored to concrete instances, active mechanistic interventions can effectively decouple logical schemata from data, offering a path toward improved controllability, faithfulness, and generalizability.

Naleving versus Gevoeligheid: Over de Beheersbaarheid van Redeneren in Grote Taalmodellen

Compliance versus Sensibility: On the Reasoning Controllability in Large Language Models

Samenvatting

Support