Обзор механизмов вывода для крупных языковых моделей: перспективы оптимизации и эффективности

Аннотация

Крупные языковые модели (LLM) широко применяются в чат-ботах, генераторах кода и поисковых системах. Задачи, такие как цепочка рассуждений (chain-of-thought), сложные логические рассуждения и сервисы агентов, значительно увеличивают стоимость вывода (inference) за счет многократного вызова модели. Для снижения затрат используются методы оптимизации, такие как параллелизм, сжатие и кэширование, однако разнообразие требований сервисов затрудняет выбор подходящего метода. В последнее время специализированные движки вывода LLM стали ключевым компонентом для интеграции методов оптимизации в инфраструктуры, ориентированные на сервисы. Тем не менее, систематическое исследование движков вывода все еще отсутствует. В данной статье представлено всестороннее оценивание 25 открытых и коммерческих движков вывода. Мы анализируем каждый движок с точки зрения удобства использования, простоты развертывания, поддержки универсальных задач, масштабируемости и пригодности для вычислений, ориентированных на пропускную способность и задержку. Кроме того, мы исследуем цели проектирования каждого движка, изучая поддерживаемые им методы оптимизации. Также мы оцениваем зрелость экосистемы открытых движков вывода и рассматриваем политики производительности и стоимости коммерческих решений. Мы намечаем будущие направления исследований, включая поддержку сложных сервисов на основе LLM, совместимость с различным оборудованием и усиление безопасности, предлагая практические рекомендации исследователям и разработчикам по выбору и проектированию оптимизированных движков вывода LLM. Мы также предоставляем публичный репозиторий для постоянного отслеживания разработок в этой быстро развивающейся области: https://github.com/sihyeong/Awesome-LLM-Inference-Engine.

English

Large language models (LLMs) are widely applied in chatbots, code generators, and search engines. Workloads such as chain-of-thought, complex reasoning, and agent services significantly increase the inference cost by invoking the model repeatedly. Optimization methods such as parallelism, compression, and caching have been adopted to reduce costs, but the diverse service requirements make it hard to select the right method. Recently, specialized LLM inference engines have emerged as a key component for integrating the optimization methods into service-oriented infrastructures. However, a systematic study on inference engines is still lacking. This paper provides a comprehensive evaluation of 25 open-source and commercial inference engines. We examine each inference engine in terms of ease-of-use, ease-of-deployment, general-purpose support, scalability, and suitability for throughput- and latency-aware computation. Furthermore, we explore the design goals of each inference engine by investigating the optimization techniques it supports. In addition, we assess the ecosystem maturity of open source inference engines and handle the performance and cost policy of commercial solutions. We outline future research directions that include support for complex LLM-based services, support of various hardware, and enhanced security, offering practical guidance to researchers and developers in selecting and designing optimized LLM inference engines. We also provide a public repository to continually track developments in this fast-evolving field: https://github.com/sihyeong/Awesome-LLM-Inference-Engine

Обзор механизмов вывода для крупных языковых моделей: перспективы оптимизации и эффективности

A Survey on Inference Engines for Large Language Models: Perspectives on Optimization and Efficiency

Аннотация

Support