Denk Niet Te Diep Na: Een Overzicht van Efficiënte R1-stijl Grote Redeneermodellen
Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models
August 4, 2025
Auteurs: Linan Yue, Yichao Du, Yizhi Wang, Weibo Gao, Fangzhou Yao, Li Wang, Ye Liu, Ziyu Xu, Qi Liu, Shimin Di, Min-Ling Zhang
cs.AI
Samenvatting
Onlangs zijn Large Reasoning Models (LRMs) geleidelijk aan een onderzoekshotspot geworden vanwege hun uitstekende prestaties bij het uitvoeren van complexe taken. Onder hen heeft DeepSeek R1 aanzienlijke aandacht gekregen vanwege zijn uitzonderlijke prestaties en open-source karakter, wat de vooruitgang in het onderzoek naar R1-stijl LRMs heeft gestimuleerd. In tegenstelling tot traditionele Large Language Models (LLMs) verbeteren deze modellen het logisch redeneren en besluitvormingsvermogen tijdens het redeneren door het integreren van mechanismen zoals lange ketens van gedachten en zelfreflectie via reinforcement learning. Met de wijdverbreide toepassing van deze modellen is echter geleidelijk het probleem van overdenken naar voren gekomen. Specifiek construeren deze modellen bij het genereren van antwoorden vaak te lange redeneerketens met overbodige of repetitieve stappen, wat leidt tot verminderde redeneerefficiëntie en mogelijk de nauwkeurigheid van het uiteindelijke antwoord beïnvloedt. Daarom zijn verschillende efficiënte redeneermethoden voorgesteld, die tot doel hebben de lengte van redeneerpaden te verminderen zonder de modelprestaties en redeneercapaciteit aan te tasten. Door de huidige onderzoeksvooruitgang op het gebied van efficiënte redeneermethoden systematisch te bekijken, categoriseren we bestaande werken in twee hoofdrichtingen op basis van het perspectief van single-model optimalisatie versus modelcollaboratie: (1) Efficiënt Redeneren met een Enkel Model, dat zich richt op het verbeteren van de redeneerefficiëntie van individuele modellen; en (2) Efficiënt Redeneren met Modelcollaboratie, dat het optimaliseren van redeneerpaden door samenwerking tussen meerdere modellen onderzoekt. Daarnaast onderhouden we een openbare GitHub-repository die de laatste voortgang in efficiënte redeneermethoden bijhoudt.
English
Recently, Large Reasoning Models (LRMs) have gradually become a research
hotspot due to their outstanding performance in handling complex tasks. Among
them, DeepSeek R1 has garnered significant attention for its exceptional
performance and open-source nature, driving advancements in the research of
R1-style LRMs. Unlike traditional Large Language Models (LLMs), these models
enhance logical deduction and decision-making capabilities during reasoning by
incorporating mechanisms such as long chain-of-thought and self-reflection
through reinforcement learning. However, with the widespread application of
these models, the problem of overthinking has gradually emerged. Specifically,
when generating answers, these models often construct excessively long
reasoning chains with redundant or repetitive steps, which leads to reduced
reasoning efficiency and may affect the accuracy of the final answer. To this
end, various efficient reasoning methods have been proposed, aiming to reduce
the length of reasoning paths without compromising model performance and
reasoning capability. By reviewing the current research advancements in the
field of efficient reasoning methods systematically, we categorize existing
works into two main directions based on the lens of single-model optimization
versus model collaboration: (1) Efficient Reasoning with Single Model, which
focuses on improving the reasoning efficiency of individual models; and (2)
Efficient Reasoning with Model Collaboration, which explores optimizing
reasoning paths through collaboration among multiple models. Besides, we
maintain a public GitHub repository that tracks the latest progress in
efficient reasoning methods.