ChatPaper.aiChatPaper

Inférence efficace pour les modèles de raisonnement à grande échelle : une étude

Efficient Inference for Large Reasoning Models: A Survey

March 29, 2025
Auteurs: Yue Liu, Jiaying Wu, Yufei He, Hongcheng Gao, Hongyu Chen, Baolong Bi, Jiaheng Zhang, Zhiqi Huang, Bryan Hooi
cs.AI

Résumé

Les modèles de raisonnement à grande échelle (LRMs) améliorent considérablement la capacité de raisonnement des modèles de langage à grande échelle (LLMs) en apprenant à raisonner, démontrant des performances prometteuses dans la résolution de tâches complexes. Cependant, leur processus de raisonnement délibéré entraîne des inefficacités en termes d'utilisation des tokens, de consommation de mémoire et de temps d'inférence. Ainsi, cette étude propose une revue des méthodes d'inférence efficaces conçues spécifiquement pour les LRMs, en se concentrant sur la réduction de l'inefficacité des tokens tout en préservant la qualité du raisonnement. Tout d'abord, nous introduisons une taxonomie pour regrouper les méthodes récentes en deux catégories principales : (a) la chaîne de pensée (CoT) explicite compacte, qui réduit les tokens tout en conservant la structure explicite du raisonnement, et (b) la CoT latente implicite, qui encode les étapes de raisonnement dans des représentations cachées plutôt que dans des tokens explicites. Parallèlement, nous discutons de leurs forces et faiblesses. Ensuite, nous réalisons des analyses empiriques sur les méthodes existantes, en termes de performance et d'efficacité. De plus, nous présentons les défis ouverts dans ce domaine, notamment le raisonnement contrôlable centré sur l'humain, le compromis entre interprétabilité et efficacité du raisonnement, la garantie de la sécurité du raisonnement efficace, et les applications plus larges du raisonnement efficace. En outre, nous mettons en lumière des idées clés pour améliorer l'efficacité de l'inférence des LRMs grâce à des techniques telles que la fusion de modèles, les nouvelles architectures et les routeurs d'agents. Nous espérons que ce travail servira de guide précieux, aidant les chercheurs à surmonter les défis dans ce domaine dynamique.
English
Large Reasoning Models (LRMs) significantly improve the reasoning ability of Large Language Models (LLMs) by learning to reason, exhibiting promising performance in complex task-solving. However, their deliberative reasoning process leads to inefficiencies in token usage, memory consumption, and inference time. Thus, this survey provides a review of efficient inference methods designed specifically for LRMs, focusing on mitigating token inefficiency while preserving the reasoning quality. First, we introduce a taxonomy to group the recent methods into two main categories: (a) explicit compact Chain-of-Thought (CoT), which reduces tokens while keeping the explicit reasoning structure, and (b) implicit latent CoT, which encodes reasoning steps within hidden representations instead of explicit tokens. Meanwhile, we discuss their strengths and weaknesses. Then, we conduct empirical analyses on existing methods from performance and efficiency aspects. Besides, we present open challenges in this field, including human-centric controllable reasoning, trade-off between interpretability and efficiency of reasoning, ensuring safety of efficient reasoning, and broader applications of efficient reasoning. In addition, we highlight key insights for enhancing LRMs' inference efficiency via techniques such as model merging, new architectures, and agent routers. We hope this work serves as a valuable guide, helping researchers overcome challenges in this vibrant fieldhttps://github.com/yueliu1999/Awesome-Efficient-Inference-for-LRMs.

Summary

AI-Generated Summary

PDF463April 1, 2025