Compromisos de Rendimiento en la Optimización de Modelos de Lenguaje Pequeños para el Comercio Electrónico
Performance Trade-offs of Optimizing Small Language Models for E-Commerce
October 24, 2025
Autores: Josip Tomo Licardo, Nikola Tankovic
cs.AI
Resumen
Los Modelos de Lenguaje a Gran Escala (LLM) ofrecen un rendimiento de vanguardia en tareas de comprensión y generación de lenguaje natural. Sin embargo, el despliegue de los principales modelos comerciales para tareas especializadas, como el comercio electrónico, a menudo se ve obstaculizado por los altos costes computacionales, la latencia y los gastos operativos. Este artículo investiga la viabilidad de modelos más pequeños y de pesos abiertos como una alternativa eficiente en recursos. Presentamos una metodología para optimizar un modelo Llama 3.2 de mil millones de parámetros para el reconocimiento de intenciones en comercio electrónico multilingüe. El modelo fue ajustado mediante Adaptación de Bajo Rango Cuantizada (QLoRA) en un conjunto de datos generado sintéticamente diseñado para imitar consultas de usuarios del mundo real. Posteriormente, aplicamos técnicas de cuantización posterior al entrenamiento, creando versiones optimizadas para GPU (GPTQ) y para CPU (GGUF). Nuestros resultados demuestran que el modelo especializado de 1B alcanza un 99% de precisión, igualando el rendimiento del modelo GPT-4.1, significativamente más grande. Un análisis detallado del rendimiento reveló compensaciones críticas dependientes del hardware: mientras que GPTQ de 4 bits redujo el uso de VRAM en un 41%, paradójicamente ralentizó la inferencia en un 82% en una arquitectura GPU antigua (NVIDIA T4) debido a la sobrecarga de descuantización. Por el contrario, los formatos GGUF en una CPU lograron una aceleración de hasta 18x en el rendimiento de inferencia y una reducción de más del 90% en el consumo de RAM en comparación con la línea base FP16. Concluimos que los modelos pequeños de pesos abiertos, debidamente optimizados, no son solo una alternativa viable, sino más adecuada para aplicaciones específicas de dominio, ya que ofrecen una precisión de vanguardia a una fracción del coste computacional.
English
Large Language Models (LLMs) offer state-of-the-art performance in natural
language understanding and generation tasks. However, the deployment of leading
commercial models for specialized tasks, such as e-commerce, is often hindered
by high computational costs, latency, and operational expenses. This paper
investigates the viability of smaller, open-weight models as a
resource-efficient alternative. We present a methodology for optimizing a
one-billion-parameter Llama 3.2 model for multilingual e-commerce intent
recognition. The model was fine-tuned using Quantized Low-Rank Adaptation
(QLoRA) on a synthetically generated dataset designed to mimic real-world user
queries. Subsequently, we applied post-training quantization techniques,
creating GPU-optimized (GPTQ) and CPU-optimized (GGUF) versions. Our results
demonstrate that the specialized 1B model achieves 99% accuracy, matching the
performance of the significantly larger GPT-4.1 model. A detailed performance
analysis revealed critical, hardware-dependent trade-offs: while 4-bit GPTQ
reduced VRAM usage by 41%, it paradoxically slowed inference by 82% on an older
GPU architecture (NVIDIA T4) due to dequantization overhead. Conversely, GGUF
formats on a CPU achieved a speedup of up to 18x in inference throughput and a
reduction of over 90% in RAM consumption compared to the FP16 baseline. We
conclude that small, properly optimized open-weight models are not just a
viable but a more suitable alternative for domain-specific applications,
offering state-of-the-art accuracy at a fraction of the computational cost.