Denken Sie nicht zu viel nach: Eine Übersicht über effiziente R1-artige Modelle für umfangreiche Schlussfolgerungen
Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models
August 4, 2025
papers.authors: Linan Yue, Yichao Du, Yizhi Wang, Weibo Gao, Fangzhou Yao, Li Wang, Ye Liu, Ziyu Xu, Qi Liu, Shimin Di, Min-Ling Zhang
cs.AI
papers.abstract
In jüngster Zeit sind Large Reasoning Models (LRMs) aufgrund ihrer herausragenden Leistung bei der Bewältigung komplexer Aufgaben zunehmend zu einem Forschungsschwerpunkt geworden. Unter ihnen hat DeepSeek R1 aufgrund seiner außergewöhnlichen Leistung und seines Open-Source-Charakters besondere Aufmerksamkeit erregt und die Fortschritte in der Forschung zu R1-artigen LRMs vorangetrieben. Im Gegensatz zu traditionellen Large Language Models (LLMs) verbessern diese Modelle die Fähigkeiten zur logischen Deduktion und Entscheidungsfindung während des Schlussfolgerns durch die Integration von Mechanismen wie langen Gedankenketten und Selbstreflexion durch Reinforcement Learning. Mit der zunehmenden Verbreitung dieser Modelle hat sich jedoch allmählich das Problem des Überdenkens herausgestellt. Insbesondere bei der Generierung von Antworten konstruieren diese Modelle oft übermäßig lange Schlussfolgerungsketten mit redundanten oder sich wiederholenden Schritten, was zu einer verringerten Effizienz des Schlussfolgerns führt und die Genauigkeit der endgültigen Antwort beeinträchtigen kann. Zu diesem Zweck wurden verschiedene effiziente Schlussfolgerungsmethoden vorgeschlagen, die darauf abzielen, die Länge der Schlussfolgerungspfade zu reduzieren, ohne die Modellleistung und die Schlussfolgerungsfähigkeit zu beeinträchtigen. Durch eine systematische Überprüfung der aktuellen Forschungsergebnisse im Bereich der effizienten Schlussfolgerungsmethoden kategorisieren wir bestehende Arbeiten in zwei Hauptrichtungen, basierend auf der Perspektive der Einzelmodelloptimierung versus Modellkollaboration: (1) Effizientes Schlussfolgern mit Einzelmodell, das sich auf die Verbesserung der Schlussfolgerungseffizienz einzelner Modelle konzentriert; und (2) Effizientes Schlussfolgern mit Modellkollaboration, das die Optimierung von Schlussfolgerungspfaden durch die Zusammenarbeit mehrerer Modelle untersucht. Darüber hinaus pflegen wir ein öffentliches GitHub-Repository, das die neuesten Fortschritte in effizienten Schlussfolgerungsmethoden verfolgt.
English
Recently, Large Reasoning Models (LRMs) have gradually become a research
hotspot due to their outstanding performance in handling complex tasks. Among
them, DeepSeek R1 has garnered significant attention for its exceptional
performance and open-source nature, driving advancements in the research of
R1-style LRMs. Unlike traditional Large Language Models (LLMs), these models
enhance logical deduction and decision-making capabilities during reasoning by
incorporating mechanisms such as long chain-of-thought and self-reflection
through reinforcement learning. However, with the widespread application of
these models, the problem of overthinking has gradually emerged. Specifically,
when generating answers, these models often construct excessively long
reasoning chains with redundant or repetitive steps, which leads to reduced
reasoning efficiency and may affect the accuracy of the final answer. To this
end, various efficient reasoning methods have been proposed, aiming to reduce
the length of reasoning paths without compromising model performance and
reasoning capability. By reviewing the current research advancements in the
field of efficient reasoning methods systematically, we categorize existing
works into two main directions based on the lens of single-model optimization
versus model collaboration: (1) Efficient Reasoning with Single Model, which
focuses on improving the reasoning efficiency of individual models; and (2)
Efficient Reasoning with Model Collaboration, which explores optimizing
reasoning paths through collaboration among multiple models. Besides, we
maintain a public GitHub repository that tracks the latest progress in
efficient reasoning methods.