電子商取引向けに最適化された小規模言語モデルの性能トレードオフ
Performance Trade-offs of Optimizing Small Language Models for E-Commerce
October 24, 2025
著者: Josip Tomo Licardo, Nikola Tankovic
cs.AI
要旨
大規模言語モデル(LLM)は、自然言語理解および生成タスクにおいて最先端の性能を提供する。しかしながら、電子商取引などの専門タスクにおける主要な商用モデルの導入は、高い計算コスト、レイテンシ、運用コストによって妨げられることが多い。本論文は、リソース効率に優れた代替案として、より小規模なオープンウェイトモデルの実用性を検証する。我々は、多言語電子商取引意図認識向けに10億パラメータのLlama 3.2モデルを最適化する手法を提案する。このモデルは、実世界のユーザークエリを模倣して設計された合成データセットを用いた量子化低ランク適応(QLoRA)によりファインチューニングされた。続いて、GPU最適化(GPTQ)版とCPU最適化(GGUF)版を作成するため、学習後量子化技術を適用した。結果として、専門化された1Bモデルは99%の精度を達成し、遥かに大規模なGPT-4.1モデルと同等の性能を示した。詳細な性能分析により、ハードウェア依存の重大なトレードオフが明らかになった:4ビットGPTQはVRAM使用量を41%削減したが、古いGPUアーキテクチャ(NVIDIA T4)では脱量子化のオーバーヘッドにより推論速度が82%低下した。逆に、CPU上のGGUFフォーマットは、FP16ベースラインと比較して、推論スループットで最大18倍の高速化とRAM消費量で90%超の削減を実現した。適切に最適化された小規模オープンウェイトモデルは、ドメイン特化型アプリケーションにおいて、単に実用的であるだけでなく、計算コストを大幅に削減しつつ最先端の精度を提供する、より適した代替手段であると結論付ける。
English
Large Language Models (LLMs) offer state-of-the-art performance in natural
language understanding and generation tasks. However, the deployment of leading
commercial models for specialized tasks, such as e-commerce, is often hindered
by high computational costs, latency, and operational expenses. This paper
investigates the viability of smaller, open-weight models as a
resource-efficient alternative. We present a methodology for optimizing a
one-billion-parameter Llama 3.2 model for multilingual e-commerce intent
recognition. The model was fine-tuned using Quantized Low-Rank Adaptation
(QLoRA) on a synthetically generated dataset designed to mimic real-world user
queries. Subsequently, we applied post-training quantization techniques,
creating GPU-optimized (GPTQ) and CPU-optimized (GGUF) versions. Our results
demonstrate that the specialized 1B model achieves 99% accuracy, matching the
performance of the significantly larger GPT-4.1 model. A detailed performance
analysis revealed critical, hardware-dependent trade-offs: while 4-bit GPTQ
reduced VRAM usage by 41%, it paradoxically slowed inference by 82% on an older
GPU architecture (NVIDIA T4) due to dequantization overhead. Conversely, GGUF
formats on a CPU achieved a speedup of up to 18x in inference throughput and a
reduction of over 90% in RAM consumption compared to the FP16 baseline. We
conclude that small, properly optimized open-weight models are not just a
viable but a more suitable alternative for domain-specific applications,
offering state-of-the-art accuracy at a fraction of the computational cost.