ChatPaper.aiChatPaper

도메인 특화 AI를 위한 소규모 언어 모델 미세 조정: 엣지 AI 관점

Fine-Tuning Small Language Models for Domain-Specific AI: An Edge AI Perspective

March 3, 2025
저자: Rakshit Aralimatti, Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi
cs.AI

초록

대규모 언어 모델을 에지 디바이스에 배포하는 것은 높은 계산 요구량, 에너지 소비, 그리고 잠재적인 데이터 프라이버시 위험과 같은 본질적인 문제에 직면합니다. 본 논문은 이러한 제약 조건을 직접적으로 해결하기 위해 Shakti 소형 언어 모델(SLMs)인 Shakti-100M, Shakti-250M, 그리고 Shakti-500M을 소개합니다. 효율적인 아키텍처, 양자화 기술, 그리고 책임 있는 AI 원칙을 결합함으로써, Shakti 시리즈는 스마트폰, 스마트 가전, IoT 시스템 등에서의 온디바이스 인텔리전스를 가능하게 합니다. 우리는 이들의 설계 철학, 학습 파이프라인, 그리고 일반적인 작업(예: MMLU, Hellaswag)과 특화된 도메인(헬스케어, 금융, 법률)에서의 벤치마크 성능에 대한 포괄적인 통찰을 제공합니다. 우리의 연구 결과는, 신중하게 설계되고 미세 조정된 컴팩트 모델이 실제 에지-AI 시나리오에서 기대를 충족하고 종종 이를 뛰어넘을 수 있음을 보여줍니다.
English
Deploying large scale language models on edge devices faces inherent challenges such as high computational demands, energy consumption, and potential data privacy risks. This paper introduces the Shakti Small Language Models (SLMs) Shakti-100M, Shakti-250M, and Shakti-500M which target these constraints headon. By combining efficient architectures, quantization techniques, and responsible AI principles, the Shakti series enables on-device intelligence for smartphones, smart appliances, IoT systems, and beyond. We provide comprehensive insights into their design philosophy, training pipelines, and benchmark performance on both general tasks (e.g., MMLU, Hellaswag) and specialized domains (healthcare, finance, and legal). Our findings illustrate that compact models, when carefully engineered and fine-tuned, can meet and often exceed expectations in real-world edge-AI scenarios.

Summary

AI-Generated Summary

PDF123March 6, 2025