Shakti-VLMs: Schaalbare Vision-Taalmodellen voor Enterprise AI
Shakti-VLMs: Scalable Vision-Language Models for Enterprise AI
February 24, 2025
Auteurs: Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi
cs.AI
Samenvatting
We introduceren Shakti VLM, een familie van vision-language modellen met een capaciteit van 1B en 4B parameters, ontworpen om de uitdagingen op het gebied van data-efficiëntie in multimodale learning aan te pakken. Hoewel recente VLMs sterke prestaties behalen door middel van uitgebreide trainingsdata, maken Shakti-modellen gebruik van architectonische innovaties om competitieve resultaten te bereiken met minder tokens. Belangrijke verbeteringen omvatten QK-Normalisatie voor aandachtstabiliteit, hybride normalisatietechnieken en verbeterde positionele codering. Een drietraps trainingsstrategie optimaliseert verder de leer efficiëntie. Evaluaties tonen aan dat Shakti-VLM-1B en Shakti-VLM-4B uitblinken in documentbegrip, visueel redeneren, OCR-extractie en algemeen multimodaal redeneren. Onze resultaten benadrukken dat hoge prestaties kunnen worden bereikt door modelontwerp en trainingsstrategie in plaats van louter datavolume, wat Shakti tot een efficiënte oplossing maakt voor multimodale taken op bedrijfsschaal.
English
We introduce Shakti VLM, a family of vision-language models in the capacity
of 1B and 4B parameters designed to address data efficiency challenges in
multimodal learning. While recent VLMs achieve strong performance through
extensive training data, Shakti models leverage architectural innovations to
attain competitive results with fewer tokens. Key advancements include
QK-Normalization for attention stability, hybrid normalization techniques, and
enhanced positional encoding. A three-stage training strategy further optimizes
learning efficiency. Evaluations show that Shakti-Shakti-VLM-1B and
Shakti-VLM-4B excel in document understanding, Visual Reasoning, OCR
extraction, and general multimodal reasoning. Our results highlight that high
performance can be achieved through model design and training strategy rather
than sheer data volume, making Shakti an efficient solution for
enterprise-scale multimodal tasks.Summary
AI-Generated Summary