L'Impatto della Lunghezza dei Passaggi di Ragionamento sui Modelli Linguistici di Grande Dimensione

Abstract

La Catena di Pensiero (Chain of Thought, CoT) è significativa nel migliorare le capacità di ragionamento dei grandi modelli linguistici (Large Language Models, LLMs). Tuttavia, la correlazione tra l'efficacia della CoT e la lunghezza dei passaggi di ragionamento nei prompt rimane in gran parte sconosciuta. Per fare luce su questo, abbiamo condotto diversi esperimenti empirici per esplorare tali relazioni. Nello specifico, abbiamo progettato esperimenti che espandono e comprimono i passaggi di ragionamento razionale all'interno delle dimostrazioni di CoT, mantenendo costanti tutti gli altri fattori. Abbiamo ottenuto i seguenti risultati chiave. Innanzitutto, i risultati indicano che allungare i passaggi di ragionamento nei prompt, anche senza aggiungere nuove informazioni, migliora considerevolmente le capacità di ragionamento degli LLMs su più dataset. Al contrario, abbreviare i passaggi di ragionamento, pur preservando le informazioni chiave, riduce significativamente le capacità di ragionamento dei modelli. Questa scoperta evidenzia l'importanza del numero di passaggi nei prompt di CoT e fornisce una guida pratica per sfruttare al meglio il potenziale degli LLMs in scenari di problem-solving complessi. In secondo luogo, abbiamo anche indagato la relazione tra le prestazioni della CoT e le argomentazioni utilizzate nelle dimostrazioni. Sorprendentemente, il risultato mostra che anche argomentazioni errate possono produrre esiti favorevoli se mantengono la lunghezza necessaria di inferenza. Terzo, abbiamo osservato che i vantaggi di aumentare i passaggi di ragionamento dipendono dal compito: i compiti più semplici richiedono meno passaggi, mentre i compiti complessi traggono un significativo beneficio da sequenze di inferenza più lunghe.

English

Chain of Thought (CoT) is significant in improving the reasoning abilities of large language models (LLMs). However, the correlation between the effectiveness of CoT and the length of reasoning steps in prompts remains largely unknown. To shed light on this, we have conducted several empirical experiments to explore the relations. Specifically, we design experiments that expand and compress the rationale reasoning steps within CoT demonstrations, while keeping all other factors constant. We have the following key findings. First, the results indicate that lengthening the reasoning steps in prompts, even without adding new information into the prompt, considerably enhances LLMs' reasoning abilities across multiple datasets. Alternatively, shortening the reasoning steps, even while preserving the key information, significantly diminishes the reasoning abilities of models. This finding highlights the importance of the number of steps in CoT prompts and provides practical guidance to make better use of LLMs' potential in complex problem-solving scenarios. Second, we also investigated the relationship between the performance of CoT and the rationales used in demonstrations. Surprisingly, the result shows that even incorrect rationales can yield favorable outcomes if they maintain the requisite length of inference. Third, we observed that the advantages of increasing reasoning steps are task-dependent: simpler tasks require fewer steps, whereas complex tasks gain significantly from longer inference sequences.

L'Impatto della Lunghezza dei Passaggi di Ragionamento sui Modelli Linguistici di Grande Dimensione

The Impact of Reasoning Step Length on Large Language Models

Abstract

Support