Conformidade versus Sensibilidade: Sobre a Controlabilidade do Raciocínio em Modelos de Linguagem de Grande Escala

Resumo

Os Grandes Modelos de Linguagem (LLMs) são conhecidos por adquirirem capacidades de raciocínio através de padrões de inferência partilhados nos dados de pré-treinamento, que são posteriormente eliciados por práticas de Cadeia de Pensamento (CoT). No entanto, a questão de saber se os padrões fundamentais de raciocínio, como a indução, dedução e abdução, podem ser dissociados de instâncias específicas de problemas permanece um desafio crítico para a controlabilidade dos modelos e para elucidar a controlabilidade do raciocínio. Neste artigo, apresentamos a primeira investigação sistemática deste problema através da lente dos conflitos de raciocínio: uma tensão explícita entre informação paramétrica e contextual induzida pela imposição de esquemas lógicos que se desviam daqueles esperados para uma tarefa-alvo. A nossa avaliação revela que os LLMs priorizam consistentemente a sensatez em detrimento da conformidade, favorecendo padrões de raciocínio apropriados à tarefa, apesar de instruções conflituosas. Notavelmente, a precisão na tarefa não é estritamente determinada pela sensatez, com os modelos a manterem frequentemente alto desempenho mesmo ao usar padrões conflituosos, sugerindo uma dependência de memória paramétrica internalizada que aumenta com o tamanho do modelo. Demonstramos ainda que os conflitos de raciocínio são internamente detetáveis, uma vez que as pontuações de confiança caem significativamente durante episódios de conflito. Experiências de *probing* confirmam que os tipos de raciocínio são codificados linearmente a partir das camadas intermédias até às tardias, indicando o potencial para controlabilidade ao nível da ativação. Aproveitando estas perceções, orientamos os modelos no sentido da conformidade, aumentando a adesão às instruções em até 29%. Globalmente, as nossas conclusões estabelecem que, embora o raciocínio dos LLMs esteja ancorado em instâncias concretas, intervenções mecanicistas ativas podem dissociar eficazmente os esquemas lógicos dos dados, oferecendo um caminho para uma melhor controlabilidade, fidedignidade e generalizabilidade.

English

Large Language Models (LLMs) are known to acquire reasoning capabilities through shared inference patterns in pre-training data, which are further elicited via Chain-of-Thought (CoT) practices. However, whether fundamental reasoning patterns, such as induction, deduction, and abduction, can be decoupled from specific problem instances remains a critical challenge for model controllability, and for shedding light on reasoning controllability. In this paper, we present the first systematic investigation of this problem through the lens of reasoning conflicts: an explicit tension between parametric and contextual information induced by mandating logical schemata that deviate from those expected for a target task. Our evaluation reveals that LLMs consistently prioritize sensibility over compliance, favoring task-appropriate reasoning patterns despite conflicting instructions. Notably, task accuracy is not strictly determined by sensibility, with models often maintaining high performance even when using conflicting patterns, suggesting a reliance on internalized parametric memory that increases with model size. We further demonstrate that reasoning conflicts are internally detectable, as confidence scores significantly drop during conflicting episodes. Probing experiments confirm that reasoning types are linearly encoded from middle-to-late layers, indicating the potential for activation-level controllability. Leveraging these insights, we steer models towards compliance, increasing instruction following by up to 29%. Overall, our findings establish that while LLM reasoning is anchored to concrete instances, active mechanistic interventions can effectively decouple logical schemata from data, offering a path toward improved controllability, faithfulness, and generalizability.

Conformidade versus Sensibilidade: Sobre a Controlabilidade do Raciocínio em Modelos de Linguagem de Grande Escala

Compliance versus Sensibility: On the Reasoning Controllability in Large Language Models

Resumo

Support