ChatPaper.aiChatPaper

Leistungskompromisse bei der Optimierung kleiner Sprachmodelle für den E-Commerce

Performance Trade-offs of Optimizing Small Language Models for E-Commerce

October 24, 2025
papers.authors: Josip Tomo Licardo, Nikola Tankovic
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) erzielen Spitzenleistungen bei Aufgaben des natürlichen Sprachverständnisses und der Sprachgenerierung. Der Einsatz führender kommerzieller Modelle für spezialisierte Aufgaben, wie beispielsweise im E-Commerce, wird jedoch häufig durch hohe Rechenkosten, Latenzzeiten und Betriebsausgaben behindert. Diese Arbeit untersucht die Tragfähigkeit kleinerer Open-Weight-Modelle als ressourceneffiziente Alternative. Wir stellen eine Methodik zur Optimierung eines Llama-3.2-Modells mit einer Milliarde Parametern für die mehrsprachige Intent-Erkennung im E-Commerce vor. Das Modell wurde mittels Quantized Low-Rank Adaptation (QLoRA) auf einem synthetisch generierten Datensatz feinabgestimmt, der reale Nutzeranfragen nachahmt. Anschließend wandten wir Post-Training-Quantisierungstechniken an und erstellten GPU-optimierte (GPTQ) und CPU-optimierte (GGUF) Versionen. Unsere Ergebnisse zeigen, dass das spezialisierte 1B-Modell eine Genauigkeit von 99 % erreicht und damit die Leistung des deutlich größeren GPT-4.1-Modells erreicht. Eine detaillierte Leistungsanalyse offenbarte kritische, hardwareabhängige Kompromisse: Während die 4-Bit-GPTQ-Quantierung die VRAM-Nutzung um 41 % reduzierte, verlangsamte sie paradoxerweise die Inferenz auf einer älteren GPU-Architektur (NVIDIA T4) aufgrund von Dequantisierungs-Overhead um 82 %. Im Gegensatz dazu erzielten GGUF-Formate auf einer CPU einen bis zu 18-fachen Geschwindigkeitsvorteil im Inferenz-Durchsatz und eine Reduktion des RAM-Verbrauchs um über 90 % im Vergleich zur FP16-Basisversion. Wir kommen zu dem Schluss, dass kleine, richtig optimierte Open-Weight-Modelle nicht nur eine tragfähige, sondern eine geeignetere Alternative für domänenspezifische Anwendungen darstellen, da sie Spitzengenauigkeit bei einem Bruchteil der Rechenkosten bieten.
English
Large Language Models (LLMs) offer state-of-the-art performance in natural language understanding and generation tasks. However, the deployment of leading commercial models for specialized tasks, such as e-commerce, is often hindered by high computational costs, latency, and operational expenses. This paper investigates the viability of smaller, open-weight models as a resource-efficient alternative. We present a methodology for optimizing a one-billion-parameter Llama 3.2 model for multilingual e-commerce intent recognition. The model was fine-tuned using Quantized Low-Rank Adaptation (QLoRA) on a synthetically generated dataset designed to mimic real-world user queries. Subsequently, we applied post-training quantization techniques, creating GPU-optimized (GPTQ) and CPU-optimized (GGUF) versions. Our results demonstrate that the specialized 1B model achieves 99% accuracy, matching the performance of the significantly larger GPT-4.1 model. A detailed performance analysis revealed critical, hardware-dependent trade-offs: while 4-bit GPTQ reduced VRAM usage by 41%, it paradoxically slowed inference by 82% on an older GPU architecture (NVIDIA T4) due to dequantization overhead. Conversely, GGUF formats on a CPU achieved a speedup of up to 18x in inference throughput and a reduction of over 90% in RAM consumption compared to the FP16 baseline. We conclude that small, properly optimized open-weight models are not just a viable but a more suitable alternative for domain-specific applications, offering state-of-the-art accuracy at a fraction of the computational cost.
PDF22December 2, 2025