Effiziente Inferenz für große Reasoning-Modelle: Ein Überblick

papers.abstract

Große Reasoning-Modelle (LRMs) verbessern die Fähigkeit zur logischen Schlussfolgerung von großen Sprachmodellen (LLMs) erheblich, indem sie das logische Denken erlernen und vielversprechende Leistungen bei der Lösung komplexer Aufgaben zeigen. Ihr deliberativer Reasoning-Prozess führt jedoch zu Ineffizienzen bei der Token-Nutzung, dem Speicherverbrauch und der Inferenzzeit. Daher bietet diese Übersicht eine Zusammenfassung von effizienten Inferenzmethoden, die speziell für LRMs entwickelt wurden, mit dem Fokus darauf, die Token-Ineffizienz zu verringern, während die Qualität des logischen Denkens erhalten bleibt. Zunächst führen wir eine Taxonomie ein, um die aktuellen Methoden in zwei Hauptkategorien zu gruppieren: (a) explizit kompakte Chain-of-Thought (CoT), die die Anzahl der Token reduziert, während die explizite Reasoning-Struktur beibehalten wird, und (b) implizite latente CoT, die die Reasoning-Schritte in verborgenen Repräsentationen statt in expliziten Tokens kodiert. Gleichzeitig diskutieren wir ihre Stärken und Schwächen. Anschließend führen wir empirische Analysen zu bestehenden Methoden aus den Perspektiven von Leistung und Effizienz durch. Darüber hinaus präsentieren wir offene Herausforderungen in diesem Bereich, darunter menschenzentriertes kontrollierbares Reasoning, den Kompromiss zwischen Interpretierbarkeit und Effizienz des logischen Denkens, die Sicherstellung der Sicherheit von effizientem Reasoning und die breitere Anwendung von effizientem Reasoning. Zusätzlich heben wir wichtige Erkenntnisse zur Steigerung der Inferenz-Effizienz von LRMs durch Techniken wie Modellfusion, neue Architekturen und Agenten-Router hervor. Wir hoffen, dass diese Arbeit als wertvoller Leitfaden dient und Forschern dabei hilft, die Herausforderungen in diesem lebendigen Feld zu bewältigen.https://github.com/yueliu1999/Awesome-Efficient-Inference-for-LRMs.

English

Large Reasoning Models (LRMs) significantly improve the reasoning ability of Large Language Models (LLMs) by learning to reason, exhibiting promising performance in complex task-solving. However, their deliberative reasoning process leads to inefficiencies in token usage, memory consumption, and inference time. Thus, this survey provides a review of efficient inference methods designed specifically for LRMs, focusing on mitigating token inefficiency while preserving the reasoning quality. First, we introduce a taxonomy to group the recent methods into two main categories: (a) explicit compact Chain-of-Thought (CoT), which reduces tokens while keeping the explicit reasoning structure, and (b) implicit latent CoT, which encodes reasoning steps within hidden representations instead of explicit tokens. Meanwhile, we discuss their strengths and weaknesses. Then, we conduct empirical analyses on existing methods from performance and efficiency aspects. Besides, we present open challenges in this field, including human-centric controllable reasoning, trade-off between interpretability and efficiency of reasoning, ensuring safety of efficient reasoning, and broader applications of efficient reasoning. In addition, we highlight key insights for enhancing LRMs' inference efficiency via techniques such as model merging, new architectures, and agent routers. We hope this work serves as a valuable guide, helping researchers overcome challenges in this vibrant fieldhttps://github.com/yueliu1999/Awesome-Efficient-Inference-for-LRMs.

Effiziente Inferenz für große Reasoning-Modelle: Ein Überblick

Efficient Inference for Large Reasoning Models: A Survey

papers.abstract

Support