Een overzicht van efficiënte redenering voor grootschalige redeneermodellen: Taal, Multimodaliteit, en verder
A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond
March 27, 2025
Auteurs: Xiaoye Qu, Yafu Li, Zhaochen Su, Weigao Sun, Jianhao Yan, Dongrui Liu, Ganqu Cui, Daizong Liu, Shuxian Liang, Junxian He, Peng Li, Wei Wei, Jing Shao, Chaochao Lu, Yue Zhang, Xian-Sheng Hua, Bowen Zhou, Yu Cheng
cs.AI
Samenvatting
Recente Large Reasoning Models (LRMs), zoals DeepSeek-R1 en OpenAI o1, hebben
sterke prestatieverbeteringen laten zien door de lengte van
Chain-of-Thought (CoT)-redenering tijdens inferentie op te schalen. Een groeiende zorg
is echter hun neiging om excessief lange redeneersporen te produceren, die
vaak gevuld zijn met overbodige inhoud (bijvoorbeeld herhaalde definities),
overmatige analyse van eenvoudige problemen, en oppervlakkige verkenning van
meerdere redeneerpaden voor moeilijkere taken. Deze inefficiëntie brengt
aanzienlijke uitdagingen met zich mee voor training, inferentie en praktische
implementatie (bijvoorbeeld in agent-gebaseerde systemen), waar
token-economie van cruciaal belang is. In dit overzicht bieden we een
uitgebreid beeld van recente inspanningen om de redeneerefficiëntie in LRMs te
verbeteren, met speciale aandacht voor de unieke uitdagingen die in dit nieuwe
paradigma ontstaan. We identificeren veelvoorkomende patronen van
inefficiëntie, onderzoeken methoden die zijn voorgesteld in de gehele levenscyclus
van LRMs, van pretraining tot inferentie, en bespreken veelbelovende
toekomstige onderzoeksrichtingen. Om de voortdurende ontwikkeling te
ondersteunen, houden we ook een real-time GitHub-repository bij die de recente
vooruitgang in het veld volgt. We hopen dat dit overzicht als basis dient voor
verder onderzoek en innovatie inspireert in dit snel evoluerende gebied.
English
Recent Large Reasoning Models (LRMs), such as DeepSeek-R1 and OpenAI o1, have
demonstrated strong performance gains by scaling up the length of
Chain-of-Thought (CoT) reasoning during inference. However, a growing concern
lies in their tendency to produce excessively long reasoning traces, which are
often filled with redundant content (e.g., repeated definitions), over-analysis
of simple problems, and superficial exploration of multiple reasoning paths for
harder tasks. This inefficiency introduces significant challenges for training,
inference, and real-world deployment (e.g., in agent-based systems), where
token economy is critical. In this survey, we provide a comprehensive overview
of recent efforts aimed at improving reasoning efficiency in LRMs, with a
particular focus on the unique challenges that arise in this new paradigm. We
identify common patterns of inefficiency, examine methods proposed across the
LRM lifecycle, i.e., from pretraining to inference, and discuss promising
future directions for research. To support ongoing development, we also
maintain a real-time GitHub repository tracking recent progress in the field.
We hope this survey serves as a foundation for further exploration and inspires
innovation in this rapidly evolving area.