Smetti di Sovrappensare: Una Rassegna sul Ragionamento Efficiente per i Modelli Linguistici di Grande Dimensione
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
March 20, 2025
Autori: Yang Sui, Yu-Neng Chuang, Guanchu Wang, Jiamu Zhang, Tianyi Zhang, Jiayi Yuan, Hongyi Liu, Andrew Wen, Shaochen, Zhong, Hanjie Chen, Xia Hu
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità notevoli in compiti complessi. I recenti progressi nei modelli di ragionamento di grandi dimensioni (LRM), come OpenAI o1 e DeepSeek-R1, hanno ulteriormente migliorato le prestazioni in domini di ragionamento di tipo System-2, come la matematica e la programmazione, sfruttando tecniche di fine-tuning supervisionato (SFT) e apprendimento per rinforzo (RL) per potenziare il ragionamento a catena di pensiero (CoT). Tuttavia, sebbene sequenze di ragionamento CoT più lunghe migliorino le prestazioni, introducono anche un significativo sovraccarico computazionale a causa di output verbosi e ridondanti, noto come "fenomeno di overthinking". In questo articolo, forniamo la prima rassegna strutturata per indagare ed esplorare sistematicamente i progressi attuali verso il raggiungimento di un ragionamento efficiente negli LLM. In generale, basandoci sul meccanismo intrinseco degli LLM, categorizziamo i lavori esistenti in diverse direzioni chiave: (1) ragionamento efficiente basato sul modello, che considera l'ottimizzazione di modelli di ragionamento a lunghezza completa in modelli di ragionamento più concisi o l'addestramento diretto di modelli di ragionamento efficienti; (2) ragionamento efficiente basato sull'output di ragionamento, che mira a ridurre dinamicamente i passaggi e la lunghezza del ragionamento durante l'inferenza; (3) ragionamento efficiente basato sugli input di prompt, che cerca di migliorare l'efficienza del ragionamento basandosi sulle proprietà dei prompt di input, come la difficoltà o il controllo della lunghezza. Inoltre, introduciamo l'uso di dati efficienti per l'addestramento di modelli di ragionamento, esploriamo le capacità di ragionamento dei modelli linguistici di piccole dimensioni e discutiamo metodi di valutazione e benchmarking.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities in
complex tasks. Recent advancements in Large Reasoning Models (LRMs), such as
OpenAI o1 and DeepSeek-R1, have further improved performance in System-2
reasoning domains like mathematics and programming by harnessing supervised
fine-tuning (SFT) and reinforcement learning (RL) techniques to enhance the
Chain-of-Thought (CoT) reasoning. However, while longer CoT reasoning sequences
improve performance, they also introduce significant computational overhead due
to verbose and redundant outputs, known as the "overthinking phenomenon". In
this paper, we provide the first structured survey to systematically
investigate and explore the current progress toward achieving efficient
reasoning in LLMs. Overall, relying on the inherent mechanism of LLMs, we
categorize existing works into several key directions: (1) model-based
efficient reasoning, which considers optimizing full-length reasoning models
into more concise reasoning models or directly training efficient reasoning
models; (2) reasoning output-based efficient reasoning, which aims to
dynamically reduce reasoning steps and length during inference; (3) input
prompts-based efficient reasoning, which seeks to enhance reasoning efficiency
based on input prompt properties such as difficulty or length control.
Additionally, we introduce the use of efficient data for training reasoning
models, explore the reasoning capabilities of small language models, and
discuss evaluation methods and benchmarking.