Stop met Overdenken: Een Overzicht van Efficiënte Redenering voor Grote Taalmodellen

Samenvatting

Grote Taalmodellen (LLMs) hebben opmerkelijke prestaties geleverd in complexe taken. Recente vooruitgang in Grote Redeneermodellen (LRMs), zoals OpenAI o1 en DeepSeek-R1, heeft de prestaties verder verbeterd in System-2 redeneerdomeinen zoals wiskunde en programmeren door gebruik te maken van supervised fine-tuning (SFT) en reinforcement learning (RL) technieken om de Chain-of-Thought (CoT) redenering te versterken. Echter, hoewel langere CoT-redeneersequenties de prestaties verbeteren, introduceren ze ook aanzienlijke rekenkundige overhead vanwege uitgebreide en redundante uitvoer, bekend als het "overthinking phenomenon". In dit artikel bieden we de eerste gestructureerde survey om systematisch de huidige vooruitgang te onderzoeken en te verkennen naar het bereiken van efficiënte redenering in LLMs. Over het algemeen, vertrouwend op het inherente mechanisme van LLMs, categoriseren we bestaande werken in verschillende belangrijke richtingen: (1) modelgebaseerde efficiënte redenering, waarbij wordt overwogen om volledige redeneermodellen te optimaliseren naar meer beknopte redeneermodellen of direct efficiënte redeneermodellen te trainen; (2) redeneeruitvoer-gebaseerde efficiënte redenering, die gericht is op het dynamisch verminderen van redeneerstappen en -lengte tijdens inferentie; (3) invoerprompt-gebaseerde efficiënte redenering, die streeft naar het verbeteren van de redeneerefficiëntie op basis van invoerprompt-eigenschappen zoals moeilijkheidsgraad of lengtebeheer. Daarnaast introduceren we het gebruik van efficiënte data voor het trainen van redeneermodellen, verkennen we de redeneercapaciteiten van kleine taalmodellen, en bespreken we evaluatiemethoden en benchmarking.

English

Large Language Models (LLMs) have demonstrated remarkable capabilities in complex tasks. Recent advancements in Large Reasoning Models (LRMs), such as OpenAI o1 and DeepSeek-R1, have further improved performance in System-2 reasoning domains like mathematics and programming by harnessing supervised fine-tuning (SFT) and reinforcement learning (RL) techniques to enhance the Chain-of-Thought (CoT) reasoning. However, while longer CoT reasoning sequences improve performance, they also introduce significant computational overhead due to verbose and redundant outputs, known as the "overthinking phenomenon". In this paper, we provide the first structured survey to systematically investigate and explore the current progress toward achieving efficient reasoning in LLMs. Overall, relying on the inherent mechanism of LLMs, we categorize existing works into several key directions: (1) model-based efficient reasoning, which considers optimizing full-length reasoning models into more concise reasoning models or directly training efficient reasoning models; (2) reasoning output-based efficient reasoning, which aims to dynamically reduce reasoning steps and length during inference; (3) input prompts-based efficient reasoning, which seeks to enhance reasoning efficiency based on input prompt properties such as difficulty or length control. Additionally, we introduce the use of efficient data for training reasoning models, explore the reasoning capabilities of small language models, and discuss evaluation methods and benchmarking.

Stop met Overdenken: Een Overzicht van Efficiënte Redenering voor Grote Taalmodellen

Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models

Samenvatting

Support