Leistungskompromisse bei der Optimierung kleiner Sprachmodelle für den E-Commerce
Performance Trade-offs of Optimizing Small Language Models for E-Commerce
October 24, 2025
papers.authors: Josip Tomo Licardo, Nikola Tankovic
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) erzielen Spitzenleistungen bei Aufgaben des natürlichen Sprachverständnisses und der Sprachgenerierung. Der Einsatz führender kommerzieller Modelle für spezialisierte Aufgaben, wie beispielsweise im E-Commerce, wird jedoch häufig durch hohe Rechenkosten, Latenzzeiten und Betriebsausgaben behindert. Diese Arbeit untersucht die Tragfähigkeit kleinerer Open-Weight-Modelle als ressourceneffiziente Alternative. Wir stellen eine Methodik zur Optimierung eines Llama-3.2-Modells mit einer Milliarde Parametern für die mehrsprachige Intent-Erkennung im E-Commerce vor. Das Modell wurde mittels Quantized Low-Rank Adaptation (QLoRA) auf einem synthetisch generierten Datensatz feinabgestimmt, der reale Nutzeranfragen nachahmt. Anschließend wandten wir Post-Training-Quantisierungstechniken an und erstellten GPU-optimierte (GPTQ) und CPU-optimierte (GGUF) Versionen. Unsere Ergebnisse zeigen, dass das spezialisierte 1B-Modell eine Genauigkeit von 99 % erreicht und damit die Leistung des deutlich größeren GPT-4.1-Modells erreicht. Eine detaillierte Leistungsanalyse offenbarte kritische, hardwareabhängige Kompromisse: Während die 4-Bit-GPTQ-Quantierung die VRAM-Nutzung um 41 % reduzierte, verlangsamte sie paradoxerweise die Inferenz auf einer älteren GPU-Architektur (NVIDIA T4) aufgrund von Dequantisierungs-Overhead um 82 %. Im Gegensatz dazu erzielten GGUF-Formate auf einer CPU einen bis zu 18-fachen Geschwindigkeitsvorteil im Inferenz-Durchsatz und eine Reduktion des RAM-Verbrauchs um über 90 % im Vergleich zur FP16-Basisversion. Wir kommen zu dem Schluss, dass kleine, richtig optimierte Open-Weight-Modelle nicht nur eine tragfähige, sondern eine geeignetere Alternative für domänenspezifische Anwendungen darstellen, da sie Spitzengenauigkeit bei einem Bruchteil der Rechenkosten bieten.
English
Large Language Models (LLMs) offer state-of-the-art performance in natural
language understanding and generation tasks. However, the deployment of leading
commercial models for specialized tasks, such as e-commerce, is often hindered
by high computational costs, latency, and operational expenses. This paper
investigates the viability of smaller, open-weight models as a
resource-efficient alternative. We present a methodology for optimizing a
one-billion-parameter Llama 3.2 model for multilingual e-commerce intent
recognition. The model was fine-tuned using Quantized Low-Rank Adaptation
(QLoRA) on a synthetically generated dataset designed to mimic real-world user
queries. Subsequently, we applied post-training quantization techniques,
creating GPU-optimized (GPTQ) and CPU-optimized (GGUF) versions. Our results
demonstrate that the specialized 1B model achieves 99% accuracy, matching the
performance of the significantly larger GPT-4.1 model. A detailed performance
analysis revealed critical, hardware-dependent trade-offs: while 4-bit GPTQ
reduced VRAM usage by 41%, it paradoxically slowed inference by 82% on an older
GPU architecture (NVIDIA T4) due to dequantization overhead. Conversely, GGUF
formats on a CPU achieved a speedup of up to 18x in inference throughput and a
reduction of over 90% in RAM consumption compared to the FP16 baseline. We
conclude that small, properly optimized open-weight models are not just a
viable but a more suitable alternative for domain-specific applications,
offering state-of-the-art accuracy at a fraction of the computational cost.