Conformité versus Sensibilité : Sur la Maîtrise du Raisonnement dans les Grands Modèles de Langage

Résumé

Les grands modèles de langage (LLM) acquièrent des capacités de raisonnement grâce à des schémas d'inférence partagés présents dans les données de pré-entraînement, capacités qui sont ensuite sollicitées via les pratiques de Chaîne de Pensée (CoT). Cependant, la possibilité de dissocier les schémas fondamentaux de raisonnement (comme l'induction, la déduction et l'abduction) d'instances de problèmes spécifiques reste un défi crucial pour la contrôlabilité des modèles et pour éclairer la contrôlabilité du raisonnement lui-même. Dans cet article, nous présentons la première investigation systématique de ce problème à travers le prisme des conflits de raisonnement : une tension explicite entre l'information paramétrique et contextuelle, induite en imposant des schémas logiques qui s'écartent de ceux attendus pour une tâche cible. Notre évaluation révèle que les LLM privilégient systématiquement la pertinence (« sensibilité ») par rapport à la conformité, favorisant les schémas de raisonnement adaptés à la tâche malgré des instructions contradictoires. Il est à noter que la précision sur la tâche n'est pas strictement déterminée par cette pertinence, les modèles maintenant souvent des performances élevées même avec des schémas conflictuels, ce qui suggère une dépendance à une mémoire paramétrique internalisée qui augmente avec la taille du modèle. Nous démontrons en outre que les conflits de raisonnement sont détectables en interne, car les scores de confiance chutent significativement pendant les épisodes conflictuels. Des expériences de « probing » confirment que les types de raisonnement sont encodés linéairement des couches intermédiaires aux couches tardives, indiquant un potentiel de contrôlabilité au niveau des activations. En exploitant ces insights, nous orientons les modèles vers la conformité, augmentant le suivi des instructions jusqu'à 29 %. Globalement, nos résultats établissent que si le raisonnement des LLM est ancré à des instances concrètes, des interventions mécanistes actives peuvent efficacement dissocier les schémas logiques des données, ouvrant une voie vers une meilleure contrôlabilité, fidélité et généralisabilité.

English

Large Language Models (LLMs) are known to acquire reasoning capabilities through shared inference patterns in pre-training data, which are further elicited via Chain-of-Thought (CoT) practices. However, whether fundamental reasoning patterns, such as induction, deduction, and abduction, can be decoupled from specific problem instances remains a critical challenge for model controllability, and for shedding light on reasoning controllability. In this paper, we present the first systematic investigation of this problem through the lens of reasoning conflicts: an explicit tension between parametric and contextual information induced by mandating logical schemata that deviate from those expected for a target task. Our evaluation reveals that LLMs consistently prioritize sensibility over compliance, favoring task-appropriate reasoning patterns despite conflicting instructions. Notably, task accuracy is not strictly determined by sensibility, with models often maintaining high performance even when using conflicting patterns, suggesting a reliance on internalized parametric memory that increases with model size. We further demonstrate that reasoning conflicts are internally detectable, as confidence scores significantly drop during conflicting episodes. Probing experiments confirm that reasoning types are linearly encoded from middle-to-late layers, indicating the potential for activation-level controllability. Leveraging these insights, we steer models towards compliance, increasing instruction following by up to 29%. Overall, our findings establish that while LLM reasoning is anchored to concrete instances, active mechanistic interventions can effectively decouple logical schemata from data, offering a path toward improved controllability, faithfulness, and generalizability.

Conformité versus Sensibilité : Sur la Maîtrise du Raisonnement dans les Grands Modèles de Langage

Compliance versus Sensibility: On the Reasoning Controllability in Large Language Models

Résumé

Support