Ragionamento a Catena di Pensiero Senza Prompt Esplicito

Abstract

Nel potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM), la ricerca precedente si è concentrata principalmente su tecniche specifiche di prompting, come il few-shot o il zero-shot chain-of-thought (CoT) prompting. Questi metodi, sebbene efficaci, spesso richiedono un'ingegnerizzazione manuale intensiva dei prompt. Il nostro studio adotta un approccio innovativo ponendo la domanda: gli LLM possono ragionare efficacemente senza prompting? I nostri risultati rivelano che, in modo intrigante, i percorsi di ragionamento CoT possono essere elicitati da LLM pre-addestrati semplicemente modificando il processo di decodifica. Piuttosto che utilizzare la decodifica greedy convenzionale, abbiamo investigato i token alternativi top-k, scoprendo che i percorsi CoT sono spesso intrinseci in queste sequenze. Questo approccio non solo evita le complicazioni del prompting, ma ci permette anche di valutare le capacità di ragionamento intrinseche degli LLM. Inoltre, osserviamo che la presenza di un CoT nel percorso di decodifica è correlata a una maggiore confidenza nella risposta decodificata dal modello. Questa metrica di confidenza differenzia efficacemente tra percorsi CoT e non-CoT. Studi empirici estesi su vari benchmark di ragionamento dimostrano che la CoT-decoding proposta supera sostanzialmente la decodifica greedy standard.

English

In enhancing the reasoning capabilities of large language models (LLMs), prior research primarily focuses on specific prompting techniques such as few-shot or zero-shot chain-of-thought (CoT) prompting. These methods, while effective, often involve manually intensive prompt engineering. Our study takes a novel approach by asking: Can LLMs reason effectively without prompting? Our findings reveal that, intriguingly, CoT reasoning paths can be elicited from pre-trained LLMs by simply altering the decoding process. Rather than conventional greedy decoding, we investigate the top-k alternative tokens, uncovering that CoT paths are frequently inherent in these sequences. This approach not only bypasses the confounders of prompting but also allows us to assess the LLMs' intrinsic reasoning abilities. Moreover, we observe that the presence of a CoT in the decoding path correlates with a higher confidence in the model's decoded answer. This confidence metric effectively differentiates between CoT and non-CoT paths. Extensive empirical studies on various reasoning benchmarks show that the proposed CoT-decoding substantially outperforms the standard greedy decoding.

Ragionamento a Catena di Pensiero Senza Prompt Esplicito

Chain-of-Thought Reasoning Without Prompting

Abstract

Support