Shakti-VLM: 기업 AI를 위한 확장 가능한 비전-언어 모델
Shakti-VLMs: Scalable Vision-Language Models for Enterprise AI
February 24, 2025
저자: Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi
cs.AI
초록
우리는 다중모달 학습에서의 데이터 효율성 문제를 해결하기 위해 설계된 10억(1B) 및 40억(4B) 파라미터 규모의 시각-언어 모델(VLM) 제품군인 Shakti VLM을 소개한다. 최근의 VLM들은 방대한 양의 학습 데이터를 통해 강력한 성능을 달성하고 있지만, Shakti 모델들은 구조적 혁신을 통해 더 적은 토큰으로도 경쟁력 있는 결과를 얻는다. 주요 개선 사항으로는 주의 메커니즘의 안정성을 위한 QK 정규화, 하이브리드 정규화 기법, 그리고 향상된 위치 인코딩이 포함된다. 또한, 3단계 학습 전략을 통해 학습 효율성을 더욱 최적화하였다. 평가 결과, Shakti-VLM-1B와 Shakti-VLM-4B는 문서 이해, 시각적 추론, OCR 추출, 그리고 일반적인 다중모달 추론에서 탁월한 성능을 보였다. 우리의 결과는 단순한 데이터 양이 아닌 모델 설계와 학습 전략을 통해 높은 성능을 달성할 수 있음을 보여주며, 이는 기업 규모의 다중모달 작업을 위한 효율적인 솔루션으로서 Shakti의 가치를 강조한다.
English
We introduce Shakti VLM, a family of vision-language models in the capacity
of 1B and 4B parameters designed to address data efficiency challenges in
multimodal learning. While recent VLMs achieve strong performance through
extensive training data, Shakti models leverage architectural innovations to
attain competitive results with fewer tokens. Key advancements include
QK-Normalization for attention stability, hybrid normalization techniques, and
enhanced positional encoding. A three-stage training strategy further optimizes
learning efficiency. Evaluations show that Shakti-Shakti-VLM-1B and
Shakti-VLM-4B excel in document understanding, Visual Reasoning, OCR
extraction, and general multimodal reasoning. Our results highlight that high
performance can be achieved through model design and training strategy rather
than sheer data volume, making Shakti an efficient solution for
enterprise-scale multimodal tasks.Summary
AI-Generated Summary