Shakti-VLMs: Schaalbare Vision-Taalmodellen voor Enterprise AI

Samenvatting

We introduceren Shakti VLM, een familie van vision-language modellen met een capaciteit van 1B en 4B parameters, ontworpen om de uitdagingen op het gebied van data-efficiëntie in multimodale learning aan te pakken. Hoewel recente VLMs sterke prestaties behalen door middel van uitgebreide trainingsdata, maken Shakti-modellen gebruik van architectonische innovaties om competitieve resultaten te bereiken met minder tokens. Belangrijke verbeteringen omvatten QK-Normalisatie voor aandachtstabiliteit, hybride normalisatietechnieken en verbeterde positionele codering. Een drietraps trainingsstrategie optimaliseert verder de leer efficiëntie. Evaluaties tonen aan dat Shakti-VLM-1B en Shakti-VLM-4B uitblinken in documentbegrip, visueel redeneren, OCR-extractie en algemeen multimodaal redeneren. Onze resultaten benadrukken dat hoge prestaties kunnen worden bereikt door modelontwerp en trainingsstrategie in plaats van louter datavolume, wat Shakti tot een efficiënte oplossing maakt voor multimodale taken op bedrijfsschaal.

English

We introduce Shakti VLM, a family of vision-language models in the capacity of 1B and 4B parameters designed to address data efficiency challenges in multimodal learning. While recent VLMs achieve strong performance through extensive training data, Shakti models leverage architectural innovations to attain competitive results with fewer tokens. Key advancements include QK-Normalization for attention stability, hybrid normalization techniques, and enhanced positional encoding. A three-stage training strategy further optimizes learning efficiency. Evaluations show that Shakti-Shakti-VLM-1B and Shakti-VLM-4B excel in document understanding, Visual Reasoning, OCR extraction, and general multimodal reasoning. Our results highlight that high performance can be achieved through model design and training strategy rather than sheer data volume, making Shakti an efficient solution for enterprise-scale multimodal tasks.

Shakti-VLMs: Schaalbare Vision-Taalmodellen voor Enterprise AI

Shakti-VLMs: Scalable Vision-Language Models for Enterprise AI

Samenvatting

Support