Analyse de la dynamique du raisonnement en chaîne : Guidage actif ou rationalisation post-hoc infidèle ?

Résumé

Les travaux récents ont démontré que le raisonnement en chaîne (Chain-of-Thought, CoT) offre souvent des gains limités pour les problèmes de raisonnement souple, tels que le raisonnement analytique et le bon sens. Le CoT peut également ne pas refléter fidèlement le raisonnement réel d'un modèle. Nous étudions la dynamique et la fidélité du CoT dans des tâches de raisonnement souple à travers des modèles ajustés par instruction, spécialisés en raisonnement et distillé pour le raisonnement. Nos résultats révèlent des différences dans la manière dont ces modèles s'appuient sur le CoT et montrent que l'influence du CoT et sa fidélité ne sont pas toujours alignées.

English

Recent work has demonstrated that Chain-of-Thought (CoT) often yields limited gains for soft-reasoning problems such as analytical and commonsense reasoning. CoT can also be unfaithful to a model's actual reasoning. We investigate the dynamics and faithfulness of CoT in soft-reasoning tasks across instruction-tuned, reasoning and reasoning-distilled models. Our findings reveal differences in how these models rely on CoT, and show that CoT influence and faithfulness are not always aligned.