Обзор механизмов вывода для крупных языковых моделей: перспективы оптимизации и эффективности
A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency
May 3, 2025
Авторы: Sihyeong Park, Sungryeol Jeon, Chaelyn Lee, Seokhun Jeon, Byung-Soo Kim, Jemin Lee
cs.AI
Аннотация
Крупные языковые модели (LLM) широко применяются в чат-ботах, генераторах кода и поисковых системах. Задачи, такие как цепочка рассуждений (chain-of-thought), сложные логические рассуждения и сервисы агентов, значительно увеличивают стоимость вывода (inference) за счет многократного вызова модели. Для снижения затрат используются методы оптимизации, такие как параллелизм, сжатие и кэширование, однако разнообразие требований сервисов затрудняет выбор подходящего метода. В последнее время специализированные движки вывода LLM стали ключевым компонентом для интеграции методов оптимизации в инфраструктуры, ориентированные на сервисы. Тем не менее, систематическое исследование движков вывода все еще отсутствует. В данной статье представлено всестороннее оценивание 25 открытых и коммерческих движков вывода. Мы анализируем каждый движок с точки зрения удобства использования, простоты развертывания, поддержки универсальных задач, масштабируемости и пригодности для вычислений, ориентированных на пропускную способность и задержку. Кроме того, мы исследуем цели проектирования каждого движка, изучая поддерживаемые им методы оптимизации. Также мы оцениваем зрелость экосистемы открытых движков вывода и рассматриваем политики производительности и стоимости коммерческих решений. Мы намечаем будущие направления исследований, включая поддержку сложных сервисов на основе LLM, совместимость с различным оборудованием и усиление безопасности, предлагая практические рекомендации исследователям и разработчикам по выбору и проектированию оптимизированных движков вывода LLM. Мы также предоставляем публичный репозиторий для постоянного отслеживания разработок в этой быстро развивающейся области: https://github.com/sihyeong/Awesome-LLM-Inference-Engine.
English
Large language models (LLMs) are widely applied in chatbots, code generators,
and search engines. Workloads such as chain-of-thought, complex reasoning, and
agent services significantly increase the inference cost by invoking the model
repeatedly. Optimization methods such as parallelism, compression, and caching
have been adopted to reduce costs, but the diverse service requirements make it
hard to select the right method. Recently, specialized LLM inference engines
have emerged as a key component for integrating the optimization methods into
service-oriented infrastructures. However, a systematic study on inference
engines is still lacking. This paper provides a comprehensive evaluation of 25
open-source and commercial inference engines. We examine each inference engine
in terms of ease-of-use, ease-of-deployment, general-purpose support,
scalability, and suitability for throughput- and latency-aware computation.
Furthermore, we explore the design goals of each inference engine by
investigating the optimization techniques it supports. In addition, we assess
the ecosystem maturity of open source inference engines and handle the
performance and cost policy of commercial solutions. We outline future research
directions that include support for complex LLM-based services, support of
various hardware, and enhanced security, offering practical guidance to
researchers and developers in selecting and designing optimized LLM inference
engines. We also provide a public repository to continually track developments
in this fast-evolving field:
https://github.com/sihyeong/Awesome-LLM-Inference-EngineSummary
AI-Generated Summary