Conformità versus Sensibilità: Sulla Controllabilità del Ragionamento nei Grandi Modelli Linguistici

Abstract

I grandi modelli linguistici (LLM) sono noti per acquisire capacità di ragionamento attraverso pattern inferenziali condivisi nei dati di pre-addestramento, che vengono ulteriormente elicitati tramite le pratiche di Chain-of-Thought (CoT). Tuttavia, se i pattern fondamentali di ragionamento, come l'induzione, la deduzione e l'abduzione, possano essere disaccoppiati da specifiche istanze problematiche rimane una sfida cruciale per la controllabilità del modello e per far luce sulla controllabilità del ragionamento. In questo articolo, presentiamo la prima indagine sistematica di questo problema attraverso la lente dei *conflitti di ragionamento*: un'esplicita tensione tra informazioni parametriche e contestuali indotta dall'imposizione di schemi logici che deviano da quelli attesi per un compito target. La nostra valutazione rivela che gli LLM danno costantemente priorità alla *sensatezza* rispetto alla *conformità*, favorendo pattern di ragionamento appropriati al compito nonostante istruzioni contrastanti. È degno di nota che l'accuratezza nel compito non sia strettamente determinata dalla sensatezza, poiché i modelli spesso mantengono alte prestazioni anche quando utilizzano pattern conflittuali, suggerendo una dipendenza dalla memoria parametrica internalizzata che aumenta con la dimensione del modello. Dimostriamo inoltre che i conflitti di ragionamento sono internamente rilevabili, poiché i punteggi di confidenza calano significativamente durante episodi conflittuali. Esperimenti di probing confermano che i tipi di ragionamento sono codificati linearmente dagli strati intermedi a quelli finali, indicando il potenziale per una controllabilità a livello di attivazione. Sfruttando queste intuizioni, guidiamo i modelli verso la conformità, aumentando il seguito delle istruzioni fino al 29%. Nel complesso, i nostri risultati stabiliscono che, sebbene il ragionamento degli LLM sia ancorato a istanze concrete, interventi meccanicistici attivi possono disaccoppiare efficacemente gli schemi logici dai dati, offrendo una via verso una migliore controllabilità, fedeltà e generalizzabilità.

English

Large Language Models (LLMs) are known to acquire reasoning capabilities through shared inference patterns in pre-training data, which are further elicited via Chain-of-Thought (CoT) practices. However, whether fundamental reasoning patterns, such as induction, deduction, and abduction, can be decoupled from specific problem instances remains a critical challenge for model controllability, and for shedding light on reasoning controllability. In this paper, we present the first systematic investigation of this problem through the lens of reasoning conflicts: an explicit tension between parametric and contextual information induced by mandating logical schemata that deviate from those expected for a target task. Our evaluation reveals that LLMs consistently prioritize sensibility over compliance, favoring task-appropriate reasoning patterns despite conflicting instructions. Notably, task accuracy is not strictly determined by sensibility, with models often maintaining high performance even when using conflicting patterns, suggesting a reliance on internalized parametric memory that increases with model size. We further demonstrate that reasoning conflicts are internally detectable, as confidence scores significantly drop during conflicting episodes. Probing experiments confirm that reasoning types are linearly encoded from middle-to-late layers, indicating the potential for activation-level controllability. Leveraging these insights, we steer models towards compliance, increasing instruction following by up to 29%. Overall, our findings establish that while LLM reasoning is anchored to concrete instances, active mechanistic interventions can effectively decouple logical schemata from data, offering a path toward improved controllability, faithfulness, and generalizability.

Conformità versus Sensibilità: Sulla Controllabilità del Ragionamento nei Grandi Modelli Linguistici

Compliance versus Sensibility: On the Reasoning Controllability in Large Language Models

Abstract

Support