Non pensarci troppo. Preferire catene di pensiero più brevi per migliorare il ragionamento nei modelli linguistici di grandi dimensioni.

Abstract

I modelli linguistici di grandi dimensioni (LLM) per il ragionamento si basano fortemente sul ridimensionamento del calcolo al momento del test per eseguire compiti di ragionamento complessi generando catene di "pensiero" estese. Sebbene dimostrino risultati impressionanti, questo approccio comporta costi computazionali e tempi di inferenza significativi. In questo lavoro, mettiamo in discussione l'assunzione che catene di pensiero più lunghe portino a migliori capacità di ragionamento. Dimostriamo innanzitutto che catene di ragionamento più brevi all'interno di singole domande hanno una probabilità significativamente maggiore di produrre risposte corrette, fino al 34,5% più accurate rispetto alla catena più lunga campionata per la stessa domanda. Sulla base di questi risultati, proponiamo short-m@k, un nuovo metodo di inferenza per LLM di ragionamento. Il nostro metodo esegue k generazioni indipendenti in parallelo e interrompe il calcolo una volta completati i primi m processi di pensiero. La risposta finale viene scelta utilizzando il voto a maggioranza tra queste m catene. Il metodo base short-1@k dimostra prestazioni simili o addirittura superiori rispetto al voto a maggioranza standard in contesti a basso calcolo, utilizzando fino al 40% in meno di token di pensiero. short-3@k, sebbene leggermente meno efficiente di short-1@k, supera costantemente il voto a maggioranza in tutti i budget di calcolo, pur essendo sostanzialmente più veloce (fino al 33% di riduzione del tempo di esecuzione). Ispirati dai nostri risultati, ottimizziamo un LLM utilizzando catene di ragionamento brevi, lunghe e selezionate casualmente. Osserviamo poi che l'addestramento su quelle più brevi porta a prestazioni migliori. Le nostre scoperte suggeriscono di ripensare i metodi attuali di calcolo al momento del test nei LLM di ragionamento, sottolineando che un "pensiero" più lungo non si traduce necessariamente in un miglioramento delle prestazioni e può, controintuitivamente, portare a risultati peggiori.

English

Reasoning large language models (LLMs) heavily rely on scaling test-time compute to perform complex reasoning tasks by generating extensive "thinking" chains. While demonstrating impressive results, this approach incurs significant computational costs and inference time. In this work, we challenge the assumption that long thinking chains results in better reasoning capabilities. We first demonstrate that shorter reasoning chains within individual questions are significantly more likely to yield correct answers - up to 34.5% more accurate than the longest chain sampled for the same question. Based on these results, we suggest short-m@k, a novel reasoning LLM inference method. Our method executes k independent generations in parallel and halts computation once the first m thinking processes are done. The final answer is chosen using majority voting among these m chains. Basic short-1@k demonstrates similar or even superior performance over standard majority voting in low-compute settings - using up to 40% fewer thinking tokens. short-3@k, while slightly less efficient than short-1@k, consistently surpasses majority voting across all compute budgets, while still being substantially faster (up to 33% wall time reduction). Inspired by our results, we finetune an LLM using short, long, and randomly selected reasoning chains. We then observe that training on the shorter ones leads to better performance. Our findings suggest rethinking current methods of test-time compute in reasoning LLMs, emphasizing that longer "thinking" does not necessarily translate to improved performance and can, counter-intuitively, lead to degraded results.

Non pensarci troppo. Preferire catene di pensiero più brevi per migliorare il ragionamento nei modelli linguistici di grandi dimensioni.

Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning

Abstract

Support