Análise da Dinâmica da Cadeia de Pensamento: Orientação Ativa ou Racionalização Pós-hoc Infiel?

Resumo

Trabalhos recentes demonstraram que a Cadeia de Pensamento (Chain-of-Thought, CoT) frequentemente gera ganhos limitados para problemas de raciocínio suave, como raciocínio analítico e de senso comum. Além disso, a CoT pode não ser fiel ao raciocínio real de um modelo. Investigamos a dinâmica e a fidelidade da CoT em tarefas de raciocínio suave em modelos ajustados por instrução, modelos de raciocínio e modelos destilados para raciocínio. Nossas descobertas revelam diferenças em como esses modelos dependem da CoT e mostram que a influência e a fidelidade da CoT nem sempre estão alinhadas.

English

Recent work has demonstrated that Chain-of-Thought (CoT) often yields limited gains for soft-reasoning problems such as analytical and commonsense reasoning. CoT can also be unfaithful to a model's actual reasoning. We investigate the dynamics and faithfulness of CoT in soft-reasoning tasks across instruction-tuned, reasoning and reasoning-distilled models. Our findings reveal differences in how these models rely on CoT, and show that CoT influence and faithfulness are not always aligned.

Análise da Dinâmica da Cadeia de Pensamento: Orientação Ativa ou Racionalização Pós-hoc Infiel?

Analysing Chain of Thought Dynamics: Active Guidance or Unfaithful Post-hoc Rationalisation?

Resumo

Support