ChatPaper.aiChatPaper

Compromis de performance dans l'optimisation des petits modèles de langage pour le commerce électronique

Performance Trade-offs of Optimizing Small Language Models for E-Commerce

October 24, 2025
papers.authors: Josip Tomo Licardo, Nikola Tankovic
cs.AI

papers.abstract

Les modèles de langage de grande taille (LLM) offrent des performances de pointe dans les tâches de compréhension et de génération du langage naturel. Cependant, le déploiement de modèles commerciaux leaders pour des tâches spécialisées, telles que le commerce électronique, est souvent entravé par des coûts de calcul élevés, une latence importante et des dépenses opérationnelles conséquentes. Cet article étudie la viabilité de modèles ouverts plus petits et plus légers comme alternative économe en ressources. Nous présentons une méthodologie pour optimiser un modèle Llama 3.2 d'un milliard de paramètres pour la reconnaissance d'intention multilingue dans le commerce électronique. Le modèle a été affiné (fine-tuning) à l'aide de l'Adaptation Quantifiée en Bas Rang (QLoRA) sur un jeu de données généré de manière synthétique, conçu pour imiter les requêtes utilisateur réelles. Par la suite, nous avons appliqué des techniques de quantification après entraînement, créant des versions optimisées pour GPU (GPTQ) et pour CPU (GGUF). Nos résultats démontrent que le modèle spécialisé de 1B atteint une précision de 99 %, égalant ainsi les performances du modèle GPT-4.1, pourtant nettement plus volumineux. Une analyse détaillée des performances a révélé des compromis critiques dépendants du matériel : tandis que la version GPTQ 4 bits réduisait l'utilisation de la VRAM de 41 %, elle a paradoxalement ralenti l'inférence de 82 % sur une architecture GPU plus ancienne (NVIDIA T4) en raison de la surcharge de déquantification. À l'inverse, les formats GGUF sur un CPU ont permis une accélération allant jusqu'à 18x du débit d'inférence et une réduction de plus de 90 % de la consommation de RAM par rapport à la ligne de base FP16. Nous concluons que les petits modèles ouverts et correctement optimisés constituent non seulement une alternative viable, mais plus appropriée pour les applications spécifiques à un domaine, offrant une précision de pointe pour une fraction du coût computationnel.
English
Large Language Models (LLMs) offer state-of-the-art performance in natural language understanding and generation tasks. However, the deployment of leading commercial models for specialized tasks, such as e-commerce, is often hindered by high computational costs, latency, and operational expenses. This paper investigates the viability of smaller, open-weight models as a resource-efficient alternative. We present a methodology for optimizing a one-billion-parameter Llama 3.2 model for multilingual e-commerce intent recognition. The model was fine-tuned using Quantized Low-Rank Adaptation (QLoRA) on a synthetically generated dataset designed to mimic real-world user queries. Subsequently, we applied post-training quantization techniques, creating GPU-optimized (GPTQ) and CPU-optimized (GGUF) versions. Our results demonstrate that the specialized 1B model achieves 99% accuracy, matching the performance of the significantly larger GPT-4.1 model. A detailed performance analysis revealed critical, hardware-dependent trade-offs: while 4-bit GPTQ reduced VRAM usage by 41%, it paradoxically slowed inference by 82% on an older GPU architecture (NVIDIA T4) due to dequantization overhead. Conversely, GGUF formats on a CPU achieved a speedup of up to 18x in inference throughput and a reduction of over 90% in RAM consumption compared to the FP16 baseline. We conclude that small, properly optimized open-weight models are not just a viable but a more suitable alternative for domain-specific applications, offering state-of-the-art accuracy at a fraction of the computational cost.
PDF22December 2, 2025