Compromissos de Desempenho na Otimização de Pequenos Modelos de Linguagem para o Comércio Eletrônico

Resumo

Os Grandes Modelos de Linguagem (LLMs) oferecem desempenho de ponta em tarefas de compreensão e geração de linguagem natural. No entanto, a implantação de modelos comerciais líderes para tarefas especializadas, como o comércio eletrônico, é frequentemente dificultada pelos altos custos computacionais, latência e despesas operacionais. Este artigo investiga a viabilidade de modelos menores, de pesos abertos, como uma alternativa eficiente em termos de recursos. Apresentamos uma metodologia para otimizar um modelo Llama 3.2 com um bilhão de parâmetros para o reconhecimento de intenções em comércio eletrônico multilíngue. O modelo foi ajustado (fine-tuned) usando Adaptação de Baixa Classificação Quantizada (QLoRA) em um conjunto de dados gerado sinteticamente e projetado para simular consultas de usuários do mundo real. Posteriormente, aplicamos técnicas de quantização pós-treinamento, criando versões otimizadas para GPU (GPTQ) e CPU (GGUF). Nossos resultados demonstram que o modelo especializado de 1B atinge 99% de precisão, equiparando-se ao desempenho do modelo GPT-4.1 significativamente maior. Uma análise de desempenho detalhada revelou trade-offs críticos e dependentes de hardware: enquanto o GPTQ de 4 bits reduziu o uso de VRAM em 41%, paradoxalmente retardou a inferência em 82% em uma arquitetura de GPU mais antiga (NVIDIA T4) devido à sobrecarga de desquantização. Por outro lado, os formatos GGUF em uma CPU alcançaram uma aceleração de até 18x no throughput de inferência e uma redução de mais de 90% no consumo de RAM em comparação com a linha de base FP16. Concluímos que modelos pequenos, de pesos abertos e devidamente otimizados não são apenas uma alternativa viável, mas mais adequada para aplicações específicas de domínio, oferecendo precisão de última geração a uma fração do custo computacional.

English

Large Language Models (LLMs) offer state-of-the-art performance in natural language understanding and generation tasks. However, the deployment of leading commercial models for specialized tasks, such as e-commerce, is often hindered by high computational costs, latency, and operational expenses. This paper investigates the viability of smaller, open-weight models as a resource-efficient alternative. We present a methodology for optimizing a one-billion-parameter Llama 3.2 model for multilingual e-commerce intent recognition. The model was fine-tuned using Quantized Low-Rank Adaptation (QLoRA) on a synthetically generated dataset designed to mimic real-world user queries. Subsequently, we applied post-training quantization techniques, creating GPU-optimized (GPTQ) and CPU-optimized (GGUF) versions. Our results demonstrate that the specialized 1B model achieves 99% accuracy, matching the performance of the significantly larger GPT-4.1 model. A detailed performance analysis revealed critical, hardware-dependent trade-offs: while 4-bit GPTQ reduced VRAM usage by 41%, it paradoxically slowed inference by 82% on an older GPU architecture (NVIDIA T4) due to dequantization overhead. Conversely, GGUF formats on a CPU achieved a speedup of up to 18x in inference throughput and a reduction of over 90% in RAM consumption compared to the FP16 baseline. We conclude that small, properly optimized open-weight models are not just a viable but a more suitable alternative for domain-specific applications, offering state-of-the-art accuracy at a fraction of the computational cost.

Compromissos de Desempenho na Otimização de Pequenos Modelos de Linguagem para o Comércio Eletrônico

Performance Trade-offs of Optimizing Small Language Models for E-Commerce

Resumo

Support