전자상거래 최적화를 위한 소규모 언어 모델의 성능 트레이드오프
Performance Trade-offs of Optimizing Small Language Models for E-Commerce
October 24, 2025
저자: Josip Tomo Licardo, Nikola Tankovic
cs.AI
초록
대규모 언어 모델(LLM)은 자연어 이해 및 생성 작업에서 최첨단 성능을 제공합니다. 그러나 전자상거래와 같은 특화된 작업에 선도적인 상용 모델을 배포하는 것은 높은 컴퓨팅 비용, 지연 시간, 운영 비용으로 인해 종종 제약을 받습니다. 본 논문은 자원 효율적인 대안으로 더 작은 오픈 웨이트 모델의 타당성을 조사합니다. 우리는 다국어 전자상거래 의도 인식을 위해 10억 파라미터 규모의 Llama 3.2 모델을 최적화하는 방법론을 제시합니다. 이 모델은 실제 사용자 질의를 모방하도록 설계된 합성 데이터셋을 사용하여 양자화된 로우 랭크 적응(QLoRA) 방식으로 미세 조정되었습니다. 이후 훈련 후 양자화 기법을 적용하여 GPU 최적화(GPTQ) 및 CPU 최적화(GGUF) 버전을 생성했습니다. 우리의 결과는 특화된 10억 파라미터 모델이 99% 정확도를 달성하며, 훨씬 더 큰 GPT-4.1 모델의 성능과 일치함을 보여줍니다. 상세한 성능 분석을 통해 하드웨어에 따른 중요한 절충점이 밝혀졌습니다: 4비트 GPTQ는 VRAM 사용량을 41% 줄였지만, 오래된 GPU 아키텍처(NVIDIA T4)에서는 역양자화 오버헤드로 인해 추론 속도가 82% 느려졌습니다. 반면 CPU에서 GGUF 형식은 FP16 기준과 비교하여 추론 처리량에서 최대 18배의 속도 향상과 RAM 사용량에서 90% 이상의 감소를 달성했습니다. 우리는 적절히 최적화된 소규모 오픈 웨이트 모델이 특정 도메인 애플리케이션에 대해 단순히 타당한 대안이 아닌, 훨씬 적은 컴퓨팅 비용으로 최첨단 정확도를 제공하는 더 적합한 대안이라고 결론지었습니다.
English
Large Language Models (LLMs) offer state-of-the-art performance in natural
language understanding and generation tasks. However, the deployment of leading
commercial models for specialized tasks, such as e-commerce, is often hindered
by high computational costs, latency, and operational expenses. This paper
investigates the viability of smaller, open-weight models as a
resource-efficient alternative. We present a methodology for optimizing a
one-billion-parameter Llama 3.2 model for multilingual e-commerce intent
recognition. The model was fine-tuned using Quantized Low-Rank Adaptation
(QLoRA) on a synthetically generated dataset designed to mimic real-world user
queries. Subsequently, we applied post-training quantization techniques,
creating GPU-optimized (GPTQ) and CPU-optimized (GGUF) versions. Our results
demonstrate that the specialized 1B model achieves 99% accuracy, matching the
performance of the significantly larger GPT-4.1 model. A detailed performance
analysis revealed critical, hardware-dependent trade-offs: while 4-bit GPTQ
reduced VRAM usage by 41%, it paradoxically slowed inference by 82% on an older
GPU architecture (NVIDIA T4) due to dequantization overhead. Conversely, GGUF
formats on a CPU achieved a speedup of up to 18x in inference throughput and a
reduction of over 90% in RAM consumption compared to the FP16 baseline. We
conclude that small, properly optimized open-weight models are not just a
viable but a more suitable alternative for domain-specific applications,
offering state-of-the-art accuracy at a fraction of the computational cost.