L'Impatto della Lunghezza dei Passaggi di Ragionamento sui Modelli Linguistici di Grande Dimensione
The Impact of Reasoning Step Length on Large Language Models
January 10, 2024
Autori: Mingyu Jin, Qinkai Yu, Dong shu, Haiyan Zhao, Wenyue Hua, Yanda Meng, Yongfeng Zhang, Mengnan Du
cs.AI
Abstract
La Catena di Pensiero (Chain of Thought, CoT) è significativa nel migliorare le capacità di ragionamento dei grandi modelli linguistici (Large Language Models, LLMs). Tuttavia, la correlazione tra l'efficacia della CoT e la lunghezza dei passaggi di ragionamento nei prompt rimane in gran parte sconosciuta. Per fare luce su questo, abbiamo condotto diversi esperimenti empirici per esplorare tali relazioni. Nello specifico, abbiamo progettato esperimenti che espandono e comprimono i passaggi di ragionamento razionale all'interno delle dimostrazioni di CoT, mantenendo costanti tutti gli altri fattori. Abbiamo ottenuto i seguenti risultati chiave. Innanzitutto, i risultati indicano che allungare i passaggi di ragionamento nei prompt, anche senza aggiungere nuove informazioni, migliora considerevolmente le capacità di ragionamento degli LLMs su più dataset. Al contrario, abbreviare i passaggi di ragionamento, pur preservando le informazioni chiave, riduce significativamente le capacità di ragionamento dei modelli. Questa scoperta evidenzia l'importanza del numero di passaggi nei prompt di CoT e fornisce una guida pratica per sfruttare al meglio il potenziale degli LLMs in scenari di problem-solving complessi. In secondo luogo, abbiamo anche indagato la relazione tra le prestazioni della CoT e le argomentazioni utilizzate nelle dimostrazioni. Sorprendentemente, il risultato mostra che anche argomentazioni errate possono produrre esiti favorevoli se mantengono la lunghezza necessaria di inferenza. Terzo, abbiamo osservato che i vantaggi di aumentare i passaggi di ragionamento dipendono dal compito: i compiti più semplici richiedono meno passaggi, mentre i compiti complessi traggono un significativo beneficio da sequenze di inferenza più lunghe.
English
Chain of Thought (CoT) is significant in improving the reasoning abilities of
large language models (LLMs). However, the correlation between the
effectiveness of CoT and the length of reasoning steps in prompts remains
largely unknown. To shed light on this, we have conducted several empirical
experiments to explore the relations. Specifically, we design experiments that
expand and compress the rationale reasoning steps within CoT demonstrations,
while keeping all other factors constant. We have the following key findings.
First, the results indicate that lengthening the reasoning steps in prompts,
even without adding new information into the prompt, considerably enhances
LLMs' reasoning abilities across multiple datasets. Alternatively, shortening
the reasoning steps, even while preserving the key information, significantly
diminishes the reasoning abilities of models. This finding highlights the
importance of the number of steps in CoT prompts and provides practical
guidance to make better use of LLMs' potential in complex problem-solving
scenarios. Second, we also investigated the relationship between the
performance of CoT and the rationales used in demonstrations. Surprisingly, the
result shows that even incorrect rationales can yield favorable outcomes if
they maintain the requisite length of inference. Third, we observed that the
advantages of increasing reasoning steps are task-dependent: simpler tasks
require fewer steps, whereas complex tasks gain significantly from longer
inference sequences.