ChatPaper.aiChatPaper

Эффективный вывод для крупных моделей логического рассуждения: обзор

Efficient Inference for Large Reasoning Models: A Survey

March 29, 2025
Авторы: Yue Liu, Jiaying Wu, Yufei He, Hongcheng Gao, Hongyu Chen, Baolong Bi, Jiaheng Zhang, Zhiqi Huang, Bryan Hooi
cs.AI

Аннотация

Модели с расширенными возможностями рассуждений (Large Reasoning Models, LRMs) значительно улучшают способность к рассуждениям у крупных языковых моделей (Large Language Models, LLMs), обучаясь процессу рассуждения и демонстрируя впечатляющие результаты в решении сложных задач. Однако их обдуманный процесс рассуждений приводит к неэффективности в использовании токенов, потреблении памяти и времени вывода. В связи с этим данный обзор посвящен методам эффективного вывода, разработанным специально для LRMs, с акцентом на снижение неэффективности токенов при сохранении качества рассуждений. Сначала мы представляем таксономию, которая группирует современные методы в две основные категории: (а) явная компактная цепочка рассуждений (Chain-of-Thought, CoT), которая сокращает количество токенов, сохраняя явную структуру рассуждений, и (б) неявная скрытая CoT, которая кодирует шаги рассуждений в скрытых представлениях вместо явных токенов. При этом мы обсуждаем их сильные и слабые стороны. Затем мы проводим эмпирический анализ существующих методов с точки зрения производительности и эффективности. Кроме того, мы рассматриваем открытые вызовы в этой области, включая управляемое человеком рассуждение, компромисс между интерпретируемостью и эффективностью рассуждений, обеспечение безопасности эффективных рассуждений и более широкое применение эффективных рассуждений. В дополнение мы выделяем ключевые идеи для повышения эффективности вывода LRMs с помощью таких техник, как объединение моделей, новые архитектуры и маршрутизаторы агентов. Мы надеемся, что эта работа станет ценным руководством, помогающим исследователям преодолевать вызовы в этой динамичной области.
English
Large Reasoning Models (LRMs) significantly improve the reasoning ability of Large Language Models (LLMs) by learning to reason, exhibiting promising performance in complex task-solving. However, their deliberative reasoning process leads to inefficiencies in token usage, memory consumption, and inference time. Thus, this survey provides a review of efficient inference methods designed specifically for LRMs, focusing on mitigating token inefficiency while preserving the reasoning quality. First, we introduce a taxonomy to group the recent methods into two main categories: (a) explicit compact Chain-of-Thought (CoT), which reduces tokens while keeping the explicit reasoning structure, and (b) implicit latent CoT, which encodes reasoning steps within hidden representations instead of explicit tokens. Meanwhile, we discuss their strengths and weaknesses. Then, we conduct empirical analyses on existing methods from performance and efficiency aspects. Besides, we present open challenges in this field, including human-centric controllable reasoning, trade-off between interpretability and efficiency of reasoning, ensuring safety of efficient reasoning, and broader applications of efficient reasoning. In addition, we highlight key insights for enhancing LRMs' inference efficiency via techniques such as model merging, new architectures, and agent routers. We hope this work serves as a valuable guide, helping researchers overcome challenges in this vibrant fieldhttps://github.com/yueliu1999/Awesome-Efficient-Inference-for-LRMs.

Summary

AI-Generated Summary

PDF463April 1, 2025