Prestatieafwegingen bij het optimaliseren van kleine taalmodellen voor e-commerce
Performance Trade-offs of Optimizing Small Language Models for E-Commerce
October 24, 2025
Auteurs: Josip Tomo Licardo, Nikola Tankovic
cs.AI
Samenvatting
Grote Taalmodellen (GTM'en) bieden state-of-the-art prestaties voor taken op het gebied van natuurlijke taalverwerking en tekstgeneratie. De inzet van toonaangevende commerciële modellen voor gespecialiseerde taken, zoals e-commerce, wordt echter vaak belemmerd door hoge rekencosten, latentie en operationele uitgaven. Dit artikel onderzoekt de haalbaarheid van kleinere, open-weight modellen als een resource-efficiënt alternatief. Wij presenteren een methodologie voor het optimaliseren van een Llama 3.2-model met één miljard parameters voor meertalige intentieherkenning in e-commerce. Het model werd *fine-tuned* met behulp van *Quantized Low-Rank Adaptation* (QLoRA) op een synthetisch gegenereerde dataset, ontworpen om real-world gebruikersquery's na te bootsen. Vervolgens pasten we *post-training quantisatie*-technieken toe, waarbij GPU-geoptimaliseerde (GPTQ) en CPU-geoptimaliseerde (GGUF) versies werden gecreëerd. Onze resultaten tonen aan dat het gespecialiseerde 1B-model een nauwkeurigheid van 99% bereikt, wat overeenkomt met de prestaties van het aanzienlijk grotere GPT-4.1-model. Een gedetailleerde prestatieanalyse onthulde kritieke, hardware-afhankelijke *trade-offs*: waar 4-bits GPTQ het VRAM-gebruik met 41% verminderde, vertraagde het paradoxaal genoeg de inferentie met 82% op een oudere GPU-architectuur (NVIDIA T4) als gevolg van *dequantisatie-overhead*. Daarentegen behaalden GGUF-formaten op een CPU een versnelling tot 18x in de inferentie-doorvoer en een vermindering van meer dan 90% in RAM-verbruik in vergelijking met de FP16-basislijn. Wij concluderen dat kleine, goed geoptimaliseerde open-weight modellen niet alleen een haalbaar, maar zelfs een geschikter alternatief zijn voor domeinspecifieke toepassingen, waarbij ze state-of-the-art nauwkeurigheid bieden tegen een fractie van de rekenkosten.
English
Large Language Models (LLMs) offer state-of-the-art performance in natural
language understanding and generation tasks. However, the deployment of leading
commercial models for specialized tasks, such as e-commerce, is often hindered
by high computational costs, latency, and operational expenses. This paper
investigates the viability of smaller, open-weight models as a
resource-efficient alternative. We present a methodology for optimizing a
one-billion-parameter Llama 3.2 model for multilingual e-commerce intent
recognition. The model was fine-tuned using Quantized Low-Rank Adaptation
(QLoRA) on a synthetically generated dataset designed to mimic real-world user
queries. Subsequently, we applied post-training quantization techniques,
creating GPU-optimized (GPTQ) and CPU-optimized (GGUF) versions. Our results
demonstrate that the specialized 1B model achieves 99% accuracy, matching the
performance of the significantly larger GPT-4.1 model. A detailed performance
analysis revealed critical, hardware-dependent trade-offs: while 4-bit GPTQ
reduced VRAM usage by 41%, it paradoxically slowed inference by 82% on an older
GPU architecture (NVIDIA T4) due to dequantization overhead. Conversely, GGUF
formats on a CPU achieved a speedup of up to 18x in inference throughput and a
reduction of over 90% in RAM consumption compared to the FP16 baseline. We
conclude that small, properly optimized open-weight models are not just a
viable but a more suitable alternative for domain-specific applications,
offering state-of-the-art accuracy at a fraction of the computational cost.