ChatPaper.aiChatPaper

Compromessi Prestazionali nell'Ottimizzazione di Piccoli Modelli Linguistici per l'E-Commerce

Performance Trade-offs of Optimizing Small Language Models for E-Commerce

October 24, 2025
Autori: Josip Tomo Licardo, Nikola Tankovic
cs.AI

Abstract

I Large Language Model (LLM) offrono prestazioni all'avanguardia nei compiti di comprensione e generazione del linguaggio naturale. Tuttavia, l'implementazione di modelli commerciali leader per compiti specializzati, come l'e-commerce, è spesso ostacolata dagli elevati costi computazionali, dalla latenza e dalle spese operative. Questo articolo indaga la fattibilità di modelli open-weight più piccoli come alternativa efficiente in termini di risorse. Presentiamo una metodologia per ottimizzare un modello Llama 3.2 da un miliardo di parametri per il riconoscimento dell'intento nell'e-commerce multilingue. Il modello è stato messo a punto (fine-tuning) utilizzando Quantized Low-Rank Adaptation (QLoRA) su un dataset generato sinteticamente progettato per simulare query utente del mondo reale. Successivamente, abbiamo applicato tecniche di quantizzazione post-addestramento, creando versioni ottimizzate per GPU (GPTQ) e per CPU (GGUF). I nostri risultati dimostrano che il modello specializzato da 1B raggiunge il 99% di accuratezza, eguagliando le prestazioni del modello GPT-4.1 significativamente più grande. Un'analisi dettagliata delle prestazioni ha rivelato compromessi critici e dipendenti dall'hardware: mentre la quantizzazione a 4-bit GPTQ ha ridotto l'utilizzo della VRAM del 41%, ha paradossalmente rallentato l'inferenza dell'82% su un'architettura GPU più vecchia (NVIDIA T4) a causa dell'overhead di dequantizzazione. Al contrario, i formati GGUF su CPU hanno ottenuto un incremento di velocità fino a 18x nella velocità di inferenza e una riduzione di oltre il 90% nel consumo di RAM rispetto al baseline FP16. Concludiamo che i modelli open-weight piccoli e adeguatamente ottimizzati non sono solo un'alternativa fattibile, ma più adatta per applicazioni dominio-specifiche, offrendo un'accuratezza allo stato dell'arte a una frazione del costo computazionale.
English
Large Language Models (LLMs) offer state-of-the-art performance in natural language understanding and generation tasks. However, the deployment of leading commercial models for specialized tasks, such as e-commerce, is often hindered by high computational costs, latency, and operational expenses. This paper investigates the viability of smaller, open-weight models as a resource-efficient alternative. We present a methodology for optimizing a one-billion-parameter Llama 3.2 model for multilingual e-commerce intent recognition. The model was fine-tuned using Quantized Low-Rank Adaptation (QLoRA) on a synthetically generated dataset designed to mimic real-world user queries. Subsequently, we applied post-training quantization techniques, creating GPU-optimized (GPTQ) and CPU-optimized (GGUF) versions. Our results demonstrate that the specialized 1B model achieves 99% accuracy, matching the performance of the significantly larger GPT-4.1 model. A detailed performance analysis revealed critical, hardware-dependent trade-offs: while 4-bit GPTQ reduced VRAM usage by 41%, it paradoxically slowed inference by 82% on an older GPU architecture (NVIDIA T4) due to dequantization overhead. Conversely, GGUF formats on a CPU achieved a speedup of up to 18x in inference throughput and a reduction of over 90% in RAM consumption compared to the FP16 baseline. We conclude that small, properly optimized open-weight models are not just a viable but a more suitable alternative for domain-specific applications, offering state-of-the-art accuracy at a fraction of the computational cost.
PDF22December 2, 2025