Stop met Overdenken: Een Overzicht van Efficiënte Redenering voor Grote Taalmodellen
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
March 20, 2025
Auteurs: Yang Sui, Yu-Neng Chuang, Guanchu Wang, Jiamu Zhang, Tianyi Zhang, Jiayi Yuan, Hongyi Liu, Andrew Wen, Shaochen, Zhong, Hanjie Chen, Xia Hu
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben opmerkelijke prestaties geleverd in complexe taken. Recente vooruitgang in Grote Redeneermodellen (LRMs), zoals OpenAI o1 en DeepSeek-R1, heeft de prestaties verder verbeterd in System-2 redeneerdomeinen zoals wiskunde en programmeren door gebruik te maken van supervised fine-tuning (SFT) en reinforcement learning (RL) technieken om de Chain-of-Thought (CoT) redenering te versterken. Echter, hoewel langere CoT-redeneersequenties de prestaties verbeteren, introduceren ze ook aanzienlijke rekenkundige overhead vanwege uitgebreide en redundante uitvoer, bekend als het "overthinking phenomenon". In dit artikel bieden we de eerste gestructureerde survey om systematisch de huidige vooruitgang te onderzoeken en te verkennen naar het bereiken van efficiënte redenering in LLMs. Over het algemeen, vertrouwend op het inherente mechanisme van LLMs, categoriseren we bestaande werken in verschillende belangrijke richtingen: (1) modelgebaseerde efficiënte redenering, waarbij wordt overwogen om volledige redeneermodellen te optimaliseren naar meer beknopte redeneermodellen of direct efficiënte redeneermodellen te trainen; (2) redeneeruitvoer-gebaseerde efficiënte redenering, die gericht is op het dynamisch verminderen van redeneerstappen en -lengte tijdens inferentie; (3) invoerprompt-gebaseerde efficiënte redenering, die streeft naar het verbeteren van de redeneerefficiëntie op basis van invoerprompt-eigenschappen zoals moeilijkheidsgraad of lengtebeheer. Daarnaast introduceren we het gebruik van efficiënte data voor het trainen van redeneermodellen, verkennen we de redeneercapaciteiten van kleine taalmodellen, en bespreken we evaluatiemethoden en benchmarking.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities in
complex tasks. Recent advancements in Large Reasoning Models (LRMs), such as
OpenAI o1 and DeepSeek-R1, have further improved performance in System-2
reasoning domains like mathematics and programming by harnessing supervised
fine-tuning (SFT) and reinforcement learning (RL) techniques to enhance the
Chain-of-Thought (CoT) reasoning. However, while longer CoT reasoning sequences
improve performance, they also introduce significant computational overhead due
to verbose and redundant outputs, known as the "overthinking phenomenon". In
this paper, we provide the first structured survey to systematically
investigate and explore the current progress toward achieving efficient
reasoning in LLMs. Overall, relying on the inherent mechanism of LLMs, we
categorize existing works into several key directions: (1) model-based
efficient reasoning, which considers optimizing full-length reasoning models
into more concise reasoning models or directly training efficient reasoning
models; (2) reasoning output-based efficient reasoning, which aims to
dynamically reduce reasoning steps and length during inference; (3) input
prompts-based efficient reasoning, which seeks to enhance reasoning efficiency
based on input prompt properties such as difficulty or length control.
Additionally, we introduce the use of efficient data for training reasoning
models, explore the reasoning capabilities of small language models, and
discuss evaluation methods and benchmarking.Summary
AI-Generated Summary