Análisis de la Dinámica de la Cadena de Pensamiento: ¿Guía Activa o Racionalización Post-hoc Infiel?

Resumen

Trabajos recientes han demostrado que el razonamiento en cadena (Chain-of-Thought, CoT) a menudo produce ganancias limitadas en problemas de razonamiento blando, como el razonamiento analítico y de sentido común. Además, el CoT puede no ser fiel al razonamiento real de un modelo. Investigamos la dinámica y la fidelidad del CoT en tareas de razonamiento blando en modelos ajustados por instrucción, modelos de razonamiento y modelos destilados para razonamiento. Nuestros hallazgos revelan diferencias en cómo estos modelos dependen del CoT y muestran que la influencia del CoT y su fidelidad no siempre están alineadas.

English

Recent work has demonstrated that Chain-of-Thought (CoT) often yields limited gains for soft-reasoning problems such as analytical and commonsense reasoning. CoT can also be unfaithful to a model's actual reasoning. We investigate the dynamics and faithfulness of CoT in soft-reasoning tasks across instruction-tuned, reasoning and reasoning-distilled models. Our findings reveal differences in how these models rely on CoT, and show that CoT influence and faithfulness are not always aligned.