Effiziente Reasoning-Modelle: Ein Überblick
Efficient Reasoning Models: A Survey
April 15, 2025
Autoren: Sicheng Feng, Gongfan Fang, Xinyin Ma, Xinchao Wang
cs.AI
Zusammenfassung
Vernunftmodelle haben bemerkenswerte Fortschritte bei der Lösung komplexer und logikintensiver Aufgaben gezeigt, indem sie ausgedehnte Chain-of-Thoughts (CoTs) generieren, bevor sie zu einer endgültigen Antwort gelangen. Doch das Aufkommen dieses „langsamen Denkens“-Paradigmas, bei dem zahlreiche Token in Folge erzeugt werden, führt unweigerlich zu einem erheblichen Rechenaufwand. Dies unterstreicht die dringende Notwendigkeit einer effektiven Beschleunigung. Diese Übersichtsarbeit zielt darauf ab, einen umfassenden Überblick über die jüngsten Fortschritte im Bereich des effizienten Schließens zu geben. Sie kategorisiert bestehende Arbeiten in drei Schlüsselrichtungen: (1) kürzer – die Komprimierung langer CoTs in prägnante, aber effektive Schließketten; (2) kleiner – die Entwicklung kompakter Sprachmodelle mit starken Schließfähigkeiten durch Techniken wie Wissensdistillation, andere Modellkompressionsverfahren und bestärkendes Lernen; und (3) schneller – die Gestaltung effizienter Dekodierungsstrategien zur Beschleunigung der Inferenz. Eine ausgewählte Sammlung der in dieser Übersichtsarbeit diskutierten Arbeiten ist in unserem GitHub-Repository verfügbar.
English
Reasoning models have demonstrated remarkable progress in solving complex and
logic-intensive tasks by generating extended Chain-of-Thoughts (CoTs) prior to
arriving at a final answer. Yet, the emergence of this "slow-thinking"
paradigm, with numerous tokens generated in sequence, inevitably introduces
substantial computational overhead. To this end, it highlights an urgent need
for effective acceleration. This survey aims to provide a comprehensive
overview of recent advances in efficient reasoning. It categorizes existing
works into three key directions: (1) shorter - compressing lengthy CoTs into
concise yet effective reasoning chains; (2) smaller - developing compact
language models with strong reasoning capabilities through techniques such as
knowledge distillation, other model compression techniques, and reinforcement
learning; and (3) faster - designing efficient decoding strategies to
accelerate inference. A curated collection of papers discussed in this survey
is available in our GitHub repository.Summary
AI-Generated Summary