Denken Sie nicht zu viel nach: Eine Übersicht über effiziente R1-artige Modelle für umfangreiche Schlussfolgerungen

papers.abstract

In jüngster Zeit sind Large Reasoning Models (LRMs) aufgrund ihrer herausragenden Leistung bei der Bewältigung komplexer Aufgaben zunehmend zu einem Forschungsschwerpunkt geworden. Unter ihnen hat DeepSeek R1 aufgrund seiner außergewöhnlichen Leistung und seines Open-Source-Charakters besondere Aufmerksamkeit erregt und die Fortschritte in der Forschung zu R1-artigen LRMs vorangetrieben. Im Gegensatz zu traditionellen Large Language Models (LLMs) verbessern diese Modelle die Fähigkeiten zur logischen Deduktion und Entscheidungsfindung während des Schlussfolgerns durch die Integration von Mechanismen wie langen Gedankenketten und Selbstreflexion durch Reinforcement Learning. Mit der zunehmenden Verbreitung dieser Modelle hat sich jedoch allmählich das Problem des Überdenkens herausgestellt. Insbesondere bei der Generierung von Antworten konstruieren diese Modelle oft übermäßig lange Schlussfolgerungsketten mit redundanten oder sich wiederholenden Schritten, was zu einer verringerten Effizienz des Schlussfolgerns führt und die Genauigkeit der endgültigen Antwort beeinträchtigen kann. Zu diesem Zweck wurden verschiedene effiziente Schlussfolgerungsmethoden vorgeschlagen, die darauf abzielen, die Länge der Schlussfolgerungspfade zu reduzieren, ohne die Modellleistung und die Schlussfolgerungsfähigkeit zu beeinträchtigen. Durch eine systematische Überprüfung der aktuellen Forschungsergebnisse im Bereich der effizienten Schlussfolgerungsmethoden kategorisieren wir bestehende Arbeiten in zwei Hauptrichtungen, basierend auf der Perspektive der Einzelmodelloptimierung versus Modellkollaboration: (1) Effizientes Schlussfolgern mit Einzelmodell, das sich auf die Verbesserung der Schlussfolgerungseffizienz einzelner Modelle konzentriert; und (2) Effizientes Schlussfolgern mit Modellkollaboration, das die Optimierung von Schlussfolgerungspfaden durch die Zusammenarbeit mehrerer Modelle untersucht. Darüber hinaus pflegen wir ein öffentliches GitHub-Repository, das die neuesten Fortschritte in effizienten Schlussfolgerungsmethoden verfolgt.

English

Recently, Large Reasoning Models (LRMs) have gradually become a research hotspot due to their outstanding performance in handling complex tasks. Among them, DeepSeek R1 has garnered significant attention for its exceptional performance and open-source nature, driving advancements in the research of R1-style LRMs. Unlike traditional Large Language Models (LLMs), these models enhance logical deduction and decision-making capabilities during reasoning by incorporating mechanisms such as long chain-of-thought and self-reflection through reinforcement learning. However, with the widespread application of these models, the problem of overthinking has gradually emerged. Specifically, when generating answers, these models often construct excessively long reasoning chains with redundant or repetitive steps, which leads to reduced reasoning efficiency and may affect the accuracy of the final answer. To this end, various efficient reasoning methods have been proposed, aiming to reduce the length of reasoning paths without compromising model performance and reasoning capability. By reviewing the current research advancements in the field of efficient reasoning methods systematically, we categorize existing works into two main directions based on the lens of single-model optimization versus model collaboration: (1) Efficient Reasoning with Single Model, which focuses on improving the reasoning efficiency of individual models; and (2) Efficient Reasoning with Model Collaboration, which explores optimizing reasoning paths through collaboration among multiple models. Besides, we maintain a public GitHub repository that tracks the latest progress in efficient reasoning methods.

Denken Sie nicht zu viel nach: Eine Übersicht über effiziente R1-artige Modelle für umfangreiche Schlussfolgerungen

Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models

papers.abstract

Support