Inferencia Eficiente en Modelos de Razonamiento a Gran Escala: Una Revisión
Efficient Inference for Large Reasoning Models: A Survey
March 29, 2025
Autores: Yue Liu, Jiaying Wu, Yufei He, Hongcheng Gao, Hongyu Chen, Baolong Bi, Jiaheng Zhang, Zhiqi Huang, Bryan Hooi
cs.AI
Resumen
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) mejoran significativamente la capacidad de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs) al aprender a razonar, mostrando un rendimiento prometedor en la resolución de tareas complejas. Sin embargo, su proceso de razonamiento deliberativo conlleva ineficiencias en el uso de tokens, el consumo de memoria y el tiempo de inferencia. Por ello, este estudio ofrece una revisión de los métodos de inferencia eficiente diseñados específicamente para LRMs, centrándose en mitigar la ineficiencia de tokens mientras se preserva la calidad del razonamiento. En primer lugar, introducimos una taxonomía para agrupar los métodos recientes en dos categorías principales: (a) Cadena de Pensamiento (CoT) compacta explícita, que reduce los tokens manteniendo la estructura de razonamiento explícita, y (b) CoT latente implícita, que codifica los pasos de razonamiento dentro de representaciones ocultas en lugar de tokens explícitos. Asimismo, discutimos sus fortalezas y debilidades. Luego, realizamos análisis empíricos de los métodos existentes desde los aspectos de rendimiento y eficiencia. Además, presentamos desafíos abiertos en este campo, incluyendo el razonamiento controlable centrado en el ser humano, el equilibrio entre interpretabilidad y eficiencia del razonamiento, garantizar la seguridad del razonamiento eficiente y aplicaciones más amplias del razonamiento eficiente. Adicionalmente, destacamos ideas clave para mejorar la eficiencia de inferencia de los LRMs mediante técnicas como la fusión de modelos, nuevas arquitecturas y enrutadores de agentes. Esperamos que este trabajo sirva como una guía valiosa, ayudando a los investigadores a superar los desafíos en este campo vibrante.
English
Large Reasoning Models (LRMs) significantly improve the reasoning ability of
Large Language Models (LLMs) by learning to reason, exhibiting promising
performance in complex task-solving. However, their deliberative reasoning
process leads to inefficiencies in token usage, memory consumption, and
inference time. Thus, this survey provides a review of efficient inference
methods designed specifically for LRMs, focusing on mitigating token
inefficiency while preserving the reasoning quality. First, we introduce a
taxonomy to group the recent methods into two main categories: (a) explicit
compact Chain-of-Thought (CoT), which reduces tokens while keeping the explicit
reasoning structure, and (b) implicit latent CoT, which encodes reasoning steps
within hidden representations instead of explicit tokens. Meanwhile, we discuss
their strengths and weaknesses. Then, we conduct empirical analyses on existing
methods from performance and efficiency aspects. Besides, we present open
challenges in this field, including human-centric controllable reasoning,
trade-off between interpretability and efficiency of reasoning, ensuring safety
of efficient reasoning, and broader applications of efficient reasoning. In
addition, we highlight key insights for enhancing LRMs' inference efficiency
via techniques such as model merging, new architectures, and agent routers. We
hope this work serves as a valuable guide, helping researchers overcome
challenges in this vibrant
fieldhttps://github.com/yueliu1999/Awesome-Efficient-Inference-for-LRMs.Summary
AI-Generated Summary