Компромиссы производительности при оптимизации малых языковых моделей для электронной коммерции
Performance Trade-offs of Optimizing Small Language Models for E-Commerce
October 24, 2025
Авторы: Josip Tomo Licardo, Nikola Tankovic
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют передовые результаты в задачах понимания и генерации естественного языка. Однако развертывание ведущих коммерческих моделей для специализированных задач, таких как электронная коммерция, часто затруднено из-за высоких вычислительных затрат, задержек и операционных расходов. В данной статье исследуется жизнеспособность более компактных моделей с открытыми весами в качестве ресурсоэффективной альтернативы. Мы представляем методологию оптимизации модели Llama 3.2 с одним миллиардом параметров для многозадачного распознавания намерений в сфере электронной коммерции. Модель дообучалась с использованием квантованной адаптации низкого ранга (QLoRA) на синтетически сгенерированном наборе данных, разработанном для имитации реальных пользовательских запросов. Впоследствии были применены методы посттренировочного квантования, создавшие версии, оптимизированные для GPU (GPTQ) и CPU (GGUF). Наши результаты показывают, что специализированная модель объемом 1B достигает точности 99%, соответствуя производительности значительно более крупной модели GPT-4.1. Детальный анализ производительности выявил критически важные, зависящие от аппаратного обеспечения компромиссы: в то время как 4-битное квантование GPTQ сократило использование видеопамяти на 41%, оно парадоксальным образом замедлило вывод на 82% на устаревшей архитектуре GPU (NVIDIA T4) из-за накладных расходов на деквантование. Напротив, форматы GGUF на CPU позволили достичь ускорения пропускной способности вывода до 18 раз и сокращения потребления оперативной памяти более чем на 90% по сравнению с базовым уровнем FP16. Мы делаем вывод, что небольшие, правильно оптимизированные модели с открытыми весами являются не просто жизнеспособной, но и более подходящей альтернативой для предметно-ориентированных приложений, предлагая передовую точность за долю вычислительных затрат.
English
Large Language Models (LLMs) offer state-of-the-art performance in natural
language understanding and generation tasks. However, the deployment of leading
commercial models for specialized tasks, such as e-commerce, is often hindered
by high computational costs, latency, and operational expenses. This paper
investigates the viability of smaller, open-weight models as a
resource-efficient alternative. We present a methodology for optimizing a
one-billion-parameter Llama 3.2 model for multilingual e-commerce intent
recognition. The model was fine-tuned using Quantized Low-Rank Adaptation
(QLoRA) on a synthetically generated dataset designed to mimic real-world user
queries. Subsequently, we applied post-training quantization techniques,
creating GPU-optimized (GPTQ) and CPU-optimized (GGUF) versions. Our results
demonstrate that the specialized 1B model achieves 99% accuracy, matching the
performance of the significantly larger GPT-4.1 model. A detailed performance
analysis revealed critical, hardware-dependent trade-offs: while 4-bit GPTQ
reduced VRAM usage by 41%, it paradoxically slowed inference by 82% on an older
GPU architecture (NVIDIA T4) due to dequantization overhead. Conversely, GGUF
formats on a CPU achieved a speedup of up to 18x in inference throughput and a
reduction of over 90% in RAM consumption compared to the FP16 baseline. We
conclude that small, properly optimized open-weight models are not just a
viable but a more suitable alternative for domain-specific applications,
offering state-of-the-art accuracy at a fraction of the computational cost.