Cumplimiento versus Sensibilidad: Sobre la Controlabilidad del Razonamiento en los Grandes Modelos de Lenguaje

Resumen

Se sabe que los Grandes Modelos de Lenguaje (LLMs) adquieren capacidades de razonamiento a través de patrones de inferencia compartidos en los datos de pre-entrenamiento, los cuales se potencian mediante prácticas de Cadena de Pensamiento (CoT). Sin embargo, si los patrones fundamentales de razonamiento, como la inducción, la deducción y la abducción, pueden desacoplarse de instancias problemáticas específicas sigue siendo un desafío crítico para la controlabilidad de los modelos y para esclarecer la controlabilidad del razonamiento. En este artículo, presentamos la primera investigación sistemática de este problema a través del lente de los conflictos de razonamiento: una tensión explícita entre la información paramétrica y contextual inducida al imponer esquemas lógicos que se desvían de los esperados para una tarea objetivo. Nuestra evaluación revela que los LLMs priorizan consistentemente la sensatez sobre el cumplimiento, favoreciendo patrones de razonamiento apropiados para la tarea a pesar de instrucciones contradictorias. Cabe destacar que la precisión en la tarea no está estrictamente determinada por la sensatez, ya que los modelos a menudo mantienen un alto rendimiento incluso al usar patrones conflictivos, lo que sugiere una dependencia de la memoria paramétrica internalizada que aumenta con el tamaño del modelo. Demostramos además que los conflictos de razonamiento son detectable internamente, ya que las puntuaciones de confianza disminuyen significativamente durante episodios conflictivos. Experimentos de sondeo confirman que los tipos de razonamiento se codifican linealmente desde las capas medias hasta las tardías, lo que indica el potencial para una controlabilidad a nivel de activación. Aprovechando estos hallazgos, dirigimos los modelos hacia el cumplimiento, aumentando el seguimiento de instrucciones hasta en un 29%. En general, nuestros resultados establecen que, si bien el razonamiento de los LLMs está anclado a instancias concretas, las intervenciones mecanicistas activas pueden desacoplar efectivamente los esquemas lógicos de los datos, ofreciendo un camino hacia una mejor controlabilidad, fidelidad y generalización.

English

Large Language Models (LLMs) are known to acquire reasoning capabilities through shared inference patterns in pre-training data, which are further elicited via Chain-of-Thought (CoT) practices. However, whether fundamental reasoning patterns, such as induction, deduction, and abduction, can be decoupled from specific problem instances remains a critical challenge for model controllability, and for shedding light on reasoning controllability. In this paper, we present the first systematic investigation of this problem through the lens of reasoning conflicts: an explicit tension between parametric and contextual information induced by mandating logical schemata that deviate from those expected for a target task. Our evaluation reveals that LLMs consistently prioritize sensibility over compliance, favoring task-appropriate reasoning patterns despite conflicting instructions. Notably, task accuracy is not strictly determined by sensibility, with models often maintaining high performance even when using conflicting patterns, suggesting a reliance on internalized parametric memory that increases with model size. We further demonstrate that reasoning conflicts are internally detectable, as confidence scores significantly drop during conflicting episodes. Probing experiments confirm that reasoning types are linearly encoded from middle-to-late layers, indicating the potential for activation-level controllability. Leveraging these insights, we steer models towards compliance, increasing instruction following by up to 29%. Overall, our findings establish that while LLM reasoning is anchored to concrete instances, active mechanistic interventions can effectively decouple logical schemata from data, offering a path toward improved controllability, faithfulness, and generalizability.

Cumplimiento versus Sensibilidad: Sobre la Controlabilidad del Razonamiento en los Grandes Modelos de Lenguaje

Compliance versus Sensibility: On the Reasoning Controllability in Large Language Models

Resumen

Support