ChatPaper.aiChatPaper

Ajuste Fino de Pequenos Modelos de Linguagem para IA Específica de Domínio: Uma Perspectiva de IA na Borda

Fine-Tuning Small Language Models for Domain-Specific AI: An Edge AI Perspective

March 3, 2025
Autores: Rakshit Aralimatti, Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi
cs.AI

Resumo

A implantação de modelos de linguagem em grande escala em dispositivos de borda enfrenta desafios inerentes, como altas demandas computacionais, consumo de energia e potenciais riscos à privacidade dos dados. Este artigo apresenta os Shakti Small Language Models (SLMs) Shakti-100M, Shakti-250M e Shakti-500M, que abordam diretamente essas restrições. Ao combinar arquiteturas eficientes, técnicas de quantização e princípios de IA responsável, a série Shakti possibilita inteligência local em smartphones, eletrodomésticos inteligentes, sistemas IoT e além. Fornecemos insights abrangentes sobre sua filosofia de design, pipelines de treinamento e desempenho em benchmarks tanto em tarefas gerais (por exemplo, MMLU, Hellaswag) quanto em domínios especializados (saúde, finanças e jurídico). Nossos resultados demonstram que modelos compactos, quando cuidadosamente projetados e ajustados, podem atender e frequentemente superar expectativas em cenários reais de IA de borda.
English
Deploying large scale language models on edge devices faces inherent challenges such as high computational demands, energy consumption, and potential data privacy risks. This paper introduces the Shakti Small Language Models (SLMs) Shakti-100M, Shakti-250M, and Shakti-500M which target these constraints headon. By combining efficient architectures, quantization techniques, and responsible AI principles, the Shakti series enables on-device intelligence for smartphones, smart appliances, IoT systems, and beyond. We provide comprehensive insights into their design philosophy, training pipelines, and benchmark performance on both general tasks (e.g., MMLU, Hellaswag) and specialized domains (healthcare, finance, and legal). Our findings illustrate that compact models, when carefully engineered and fine-tuned, can meet and often exceed expectations in real-world edge-AI scenarios.

Summary

AI-Generated Summary

PDF123March 6, 2025