Raciocínio em Cadeia de Pensamentos Sem Indução
Chain-of-Thought Reasoning Without Prompting
February 15, 2024
Autores: Xuezhi Wang, Denny Zhou
cs.AI
Resumo
Na melhoria das capacidades de raciocínio dos grandes modelos de linguagem (LLMs, na sigla em inglês), pesquisas anteriores concentram-se principalmente em técnicas específicas de "prompting", como o "chain-of-thought" (CoT) com poucos exemplos (few-shot) ou sem exemplos (zero-shot). Embora eficazes, esses métodos frequentemente envolvem um processo manual intensivo de engenharia de prompts. Nosso estudo adota uma abordagem inovadora ao questionar: Os LLMs podem raciocinar efetivamente sem a necessidade de prompts? Nossas descobertas revelam que, de forma intrigante, caminhos de raciocínio CoT podem ser elicitados de LLMs pré-treinados simplesmente alterando o processo de decodificação. Em vez da decodificação gananciosa convencional, investigamos os k tokens alternativos mais prováveis, descobrindo que caminhos CoT frequentemente estão inerentemente presentes nessas sequências. Essa abordagem não apenas contorna os desafios associados ao prompting, mas também nos permite avaliar as habilidades intrínsecas de raciocínio dos LLMs. Além disso, observamos que a presença de um CoT no caminho de decodificação está correlacionada com uma maior confiança na resposta decodificada pelo modelo. Essa métrica de confiança efetivamente diferencia entre caminhos CoT e não-CoT. Estudos empíricos extensos em diversos benchmarks de raciocínio mostram que a proposta de decodificação CoT supera substancialmente a decodificação gananciosa padrão.
English
In enhancing the reasoning capabilities of large language models (LLMs),
prior research primarily focuses on specific prompting techniques such as
few-shot or zero-shot chain-of-thought (CoT) prompting. These methods, while
effective, often involve manually intensive prompt engineering. Our study takes
a novel approach by asking: Can LLMs reason effectively without prompting? Our
findings reveal that, intriguingly, CoT reasoning paths can be elicited from
pre-trained LLMs by simply altering the decoding process. Rather than
conventional greedy decoding, we investigate the top-k alternative tokens,
uncovering that CoT paths are frequently inherent in these sequences. This
approach not only bypasses the confounders of prompting but also allows us to
assess the LLMs' intrinsic reasoning abilities. Moreover, we observe
that the presence of a CoT in the decoding path correlates with a higher
confidence in the model's decoded answer. This confidence metric effectively
differentiates between CoT and non-CoT paths. Extensive empirical studies on
various reasoning benchmarks show that the proposed CoT-decoding substantially
outperforms the standard greedy decoding.