ChatPaper.aiChatPaper

Een overzicht van efficiënte redenering voor grootschalige redeneermodellen: Taal, Multimodaliteit, en verder

A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond

March 27, 2025
Auteurs: Xiaoye Qu, Yafu Li, Zhaochen Su, Weigao Sun, Jianhao Yan, Dongrui Liu, Ganqu Cui, Daizong Liu, Shuxian Liang, Junxian He, Peng Li, Wei Wei, Jing Shao, Chaochao Lu, Yue Zhang, Xian-Sheng Hua, Bowen Zhou, Yu Cheng
cs.AI

Samenvatting

Recente Large Reasoning Models (LRMs), zoals DeepSeek-R1 en OpenAI o1, hebben sterke prestatieverbeteringen laten zien door de lengte van Chain-of-Thought (CoT)-redenering tijdens inferentie op te schalen. Een groeiende zorg is echter hun neiging om excessief lange redeneersporen te produceren, die vaak gevuld zijn met overbodige inhoud (bijvoorbeeld herhaalde definities), overmatige analyse van eenvoudige problemen, en oppervlakkige verkenning van meerdere redeneerpaden voor moeilijkere taken. Deze inefficiëntie brengt aanzienlijke uitdagingen met zich mee voor training, inferentie en praktische implementatie (bijvoorbeeld in agent-gebaseerde systemen), waar token-economie van cruciaal belang is. In dit overzicht bieden we een uitgebreid beeld van recente inspanningen om de redeneerefficiëntie in LRMs te verbeteren, met speciale aandacht voor de unieke uitdagingen die in dit nieuwe paradigma ontstaan. We identificeren veelvoorkomende patronen van inefficiëntie, onderzoeken methoden die zijn voorgesteld in de gehele levenscyclus van LRMs, van pretraining tot inferentie, en bespreken veelbelovende toekomstige onderzoeksrichtingen. Om de voortdurende ontwikkeling te ondersteunen, houden we ook een real-time GitHub-repository bij die de recente vooruitgang in het veld volgt. We hopen dat dit overzicht als basis dient voor verder onderzoek en innovatie inspireert in dit snel evoluerende gebied.
English
Recent Large Reasoning Models (LRMs), such as DeepSeek-R1 and OpenAI o1, have demonstrated strong performance gains by scaling up the length of Chain-of-Thought (CoT) reasoning during inference. However, a growing concern lies in their tendency to produce excessively long reasoning traces, which are often filled with redundant content (e.g., repeated definitions), over-analysis of simple problems, and superficial exploration of multiple reasoning paths for harder tasks. This inefficiency introduces significant challenges for training, inference, and real-world deployment (e.g., in agent-based systems), where token economy is critical. In this survey, we provide a comprehensive overview of recent efforts aimed at improving reasoning efficiency in LRMs, with a particular focus on the unique challenges that arise in this new paradigm. We identify common patterns of inefficiency, examine methods proposed across the LRM lifecycle, i.e., from pretraining to inference, and discuss promising future directions for research. To support ongoing development, we also maintain a real-time GitHub repository tracking recent progress in the field. We hope this survey serves as a foundation for further exploration and inspires innovation in this rapidly evolving area.
PDF404March 31, 2025