ChatPaper.aiChatPaper

電子商取引向けに最適化された小規模言語モデルの性能トレードオフ

Performance Trade-offs of Optimizing Small Language Models for E-Commerce

October 24, 2025
著者: Josip Tomo Licardo, Nikola Tankovic
cs.AI

要旨

大規模言語モデル(LLM)は、自然言語理解および生成タスクにおいて最先端の性能を提供する。しかしながら、電子商取引などの専門タスクにおける主要な商用モデルの導入は、高い計算コスト、レイテンシ、運用コストによって妨げられることが多い。本論文は、リソース効率に優れた代替案として、より小規模なオープンウェイトモデルの実用性を検証する。我々は、多言語電子商取引意図認識向けに10億パラメータのLlama 3.2モデルを最適化する手法を提案する。このモデルは、実世界のユーザークエリを模倣して設計された合成データセットを用いた量子化低ランク適応(QLoRA)によりファインチューニングされた。続いて、GPU最適化(GPTQ)版とCPU最適化(GGUF)版を作成するため、学習後量子化技術を適用した。結果として、専門化された1Bモデルは99%の精度を達成し、遥かに大規模なGPT-4.1モデルと同等の性能を示した。詳細な性能分析により、ハードウェア依存の重大なトレードオフが明らかになった:4ビットGPTQはVRAM使用量を41%削減したが、古いGPUアーキテクチャ(NVIDIA T4)では脱量子化のオーバーヘッドにより推論速度が82%低下した。逆に、CPU上のGGUFフォーマットは、FP16ベースラインと比較して、推論スループットで最大18倍の高速化とRAM消費量で90%超の削減を実現した。適切に最適化された小規模オープンウェイトモデルは、ドメイン特化型アプリケーションにおいて、単に実用的であるだけでなく、計算コストを大幅に削減しつつ最先端の精度を提供する、より適した代替手段であると結論付ける。
English
Large Language Models (LLMs) offer state-of-the-art performance in natural language understanding and generation tasks. However, the deployment of leading commercial models for specialized tasks, such as e-commerce, is often hindered by high computational costs, latency, and operational expenses. This paper investigates the viability of smaller, open-weight models as a resource-efficient alternative. We present a methodology for optimizing a one-billion-parameter Llama 3.2 model for multilingual e-commerce intent recognition. The model was fine-tuned using Quantized Low-Rank Adaptation (QLoRA) on a synthetically generated dataset designed to mimic real-world user queries. Subsequently, we applied post-training quantization techniques, creating GPU-optimized (GPTQ) and CPU-optimized (GGUF) versions. Our results demonstrate that the specialized 1B model achieves 99% accuracy, matching the performance of the significantly larger GPT-4.1 model. A detailed performance analysis revealed critical, hardware-dependent trade-offs: while 4-bit GPTQ reduced VRAM usage by 41%, it paradoxically slowed inference by 82% on an older GPU architecture (NVIDIA T4) due to dequantization overhead. Conversely, GGUF formats on a CPU achieved a speedup of up to 18x in inference throughput and a reduction of over 90% in RAM consumption compared to the FP16 baseline. We conclude that small, properly optimized open-weight models are not just a viable but a more suitable alternative for domain-specific applications, offering state-of-the-art accuracy at a fraction of the computational cost.
PDF22December 2, 2025