Effiziente Inferenz für große Reasoning-Modelle: Ein Überblick
Efficient Inference for Large Reasoning Models: A Survey
March 29, 2025
Autoren: Yue Liu, Jiaying Wu, Yufei He, Hongcheng Gao, Hongyu Chen, Baolong Bi, Jiaheng Zhang, Zhiqi Huang, Bryan Hooi
cs.AI
Zusammenfassung
Große Reasoning-Modelle (LRMs) verbessern die Fähigkeit zur logischen Schlussfolgerung von großen Sprachmodellen (LLMs) erheblich, indem sie das logische Denken erlernen und vielversprechende Leistungen bei der Lösung komplexer Aufgaben zeigen. Ihr deliberativer Reasoning-Prozess führt jedoch zu Ineffizienzen bei der Token-Nutzung, dem Speicherverbrauch und der Inferenzzeit. Daher bietet diese Übersicht eine Zusammenfassung von effizienten Inferenzmethoden, die speziell für LRMs entwickelt wurden, mit dem Fokus darauf, die Token-Ineffizienz zu verringern, während die Qualität des logischen Denkens erhalten bleibt. Zunächst führen wir eine Taxonomie ein, um die aktuellen Methoden in zwei Hauptkategorien zu gruppieren: (a) explizit kompakte Chain-of-Thought (CoT), die die Anzahl der Token reduziert, während die explizite Reasoning-Struktur beibehalten wird, und (b) implizite latente CoT, die die Reasoning-Schritte in verborgenen Repräsentationen statt in expliziten Tokens kodiert. Gleichzeitig diskutieren wir ihre Stärken und Schwächen. Anschließend führen wir empirische Analysen zu bestehenden Methoden aus den Perspektiven von Leistung und Effizienz durch. Darüber hinaus präsentieren wir offene Herausforderungen in diesem Bereich, darunter menschenzentriertes kontrollierbares Reasoning, den Kompromiss zwischen Interpretierbarkeit und Effizienz des logischen Denkens, die Sicherstellung der Sicherheit von effizientem Reasoning und die breitere Anwendung von effizientem Reasoning. Zusätzlich heben wir wichtige Erkenntnisse zur Steigerung der Inferenz-Effizienz von LRMs durch Techniken wie Modellfusion, neue Architekturen und Agenten-Router hervor. Wir hoffen, dass diese Arbeit als wertvoller Leitfaden dient und Forschern dabei hilft, die Herausforderungen in diesem lebendigen Feld zu bewältigen.https://github.com/yueliu1999/Awesome-Efficient-Inference-for-LRMs.
English
Large Reasoning Models (LRMs) significantly improve the reasoning ability of
Large Language Models (LLMs) by learning to reason, exhibiting promising
performance in complex task-solving. However, their deliberative reasoning
process leads to inefficiencies in token usage, memory consumption, and
inference time. Thus, this survey provides a review of efficient inference
methods designed specifically for LRMs, focusing on mitigating token
inefficiency while preserving the reasoning quality. First, we introduce a
taxonomy to group the recent methods into two main categories: (a) explicit
compact Chain-of-Thought (CoT), which reduces tokens while keeping the explicit
reasoning structure, and (b) implicit latent CoT, which encodes reasoning steps
within hidden representations instead of explicit tokens. Meanwhile, we discuss
their strengths and weaknesses. Then, we conduct empirical analyses on existing
methods from performance and efficiency aspects. Besides, we present open
challenges in this field, including human-centric controllable reasoning,
trade-off between interpretability and efficiency of reasoning, ensuring safety
of efficient reasoning, and broader applications of efficient reasoning. In
addition, we highlight key insights for enhancing LRMs' inference efficiency
via techniques such as model merging, new architectures, and agent routers. We
hope this work serves as a valuable guide, helping researchers overcome
challenges in this vibrant
fieldhttps://github.com/yueliu1999/Awesome-Efficient-Inference-for-LRMs.Summary
AI-Generated Summary