Ragionamento a Catena di Pensiero Senza Prompt Esplicito
Chain-of-Thought Reasoning Without Prompting
February 15, 2024
Autori: Xuezhi Wang, Denny Zhou
cs.AI
Abstract
Nel potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM), la ricerca precedente si è concentrata principalmente su tecniche specifiche di prompting, come il few-shot o il zero-shot chain-of-thought (CoT) prompting. Questi metodi, sebbene efficaci, spesso richiedono un'ingegnerizzazione manuale intensiva dei prompt. Il nostro studio adotta un approccio innovativo ponendo la domanda: gli LLM possono ragionare efficacemente senza prompting? I nostri risultati rivelano che, in modo intrigante, i percorsi di ragionamento CoT possono essere elicitati da LLM pre-addestrati semplicemente modificando il processo di decodifica. Piuttosto che utilizzare la decodifica greedy convenzionale, abbiamo investigato i token alternativi top-k, scoprendo che i percorsi CoT sono spesso intrinseci in queste sequenze. Questo approccio non solo evita le complicazioni del prompting, ma ci permette anche di valutare le capacità di ragionamento intrinseche degli LLM. Inoltre, osserviamo che la presenza di un CoT nel percorso di decodifica è correlata a una maggiore confidenza nella risposta decodificata dal modello. Questa metrica di confidenza differenzia efficacemente tra percorsi CoT e non-CoT. Studi empirici estesi su vari benchmark di ragionamento dimostrano che la CoT-decoding proposta supera sostanzialmente la decodifica greedy standard.
English
In enhancing the reasoning capabilities of large language models (LLMs),
prior research primarily focuses on specific prompting techniques such as
few-shot or zero-shot chain-of-thought (CoT) prompting. These methods, while
effective, often involve manually intensive prompt engineering. Our study takes
a novel approach by asking: Can LLMs reason effectively without prompting? Our
findings reveal that, intriguingly, CoT reasoning paths can be elicited from
pre-trained LLMs by simply altering the decoding process. Rather than
conventional greedy decoding, we investigate the top-k alternative tokens,
uncovering that CoT paths are frequently inherent in these sequences. This
approach not only bypasses the confounders of prompting but also allows us to
assess the LLMs' intrinsic reasoning abilities. Moreover, we observe
that the presence of a CoT in the decoding path correlates with a higher
confidence in the model's decoded answer. This confidence metric effectively
differentiates between CoT and non-CoT paths. Extensive empirical studies on
various reasoning benchmarks show that the proposed CoT-decoding substantially
outperforms the standard greedy decoding.