Shakti-VLMs: Skalierbare Vision-Sprache-Modelle für Enterprise-KI

papers.abstract

Wir stellen Shakti VLM vor, eine Familie von Vision-Language-Modellen mit 1B und 4B Parametern, die entwickelt wurden, um Herausforderungen in der Dateneffizienz beim multimodalen Lernen zu adressieren. Während aktuelle Vision-Language-Modelle (VLMs) durch umfangreiche Trainingsdaten starke Leistungen erzielen, nutzen Shakti-Modelle architektonische Innovationen, um mit weniger Tokens wettbewerbsfähige Ergebnisse zu erreichen. Zu den wesentlichen Fortschritten gehören QK-Normalisierung für die Stabilität der Aufmerksamkeit, hybride Normalisierungstechniken und verbesserte Positionskodierung. Eine dreistufige Trainingsstrategie optimiert die Lerneffizienz weiter. Evaluierungen zeigen, dass Shakti-VLM-1B und Shakti-VLM-4B in den Bereichen Dokumentenverständnis, visuelles Schließen, OCR-Extraktion und allgemeinem multimodalen Schließen herausragen. Unsere Ergebnisse verdeutlichen, dass hohe Leistung durch Modellgestaltung und Trainingsstrategie anstelle von reinem Datenvolumen erreicht werden kann, was Shakti zu einer effizienten Lösung für multimodale Aufgaben im Unternehmensmaßstab macht.

English

We introduce Shakti VLM, a family of vision-language models in the capacity of 1B and 4B parameters designed to address data efficiency challenges in multimodal learning. While recent VLMs achieve strong performance through extensive training data, Shakti models leverage architectural innovations to attain competitive results with fewer tokens. Key advancements include QK-Normalization for attention stability, hybrid normalization techniques, and enhanced positional encoding. A three-stage training strategy further optimizes learning efficiency. Evaluations show that Shakti-Shakti-VLM-1B and Shakti-VLM-4B excel in document understanding, Visual Reasoning, OCR extraction, and general multimodal reasoning. Our results highlight that high performance can be achieved through model design and training strategy rather than sheer data volume, making Shakti an efficient solution for enterprise-scale multimodal tasks.

Shakti-VLMs: Skalierbare Vision-Sprache-Modelle für Enterprise-KI

Shakti-VLMs: Scalable Vision-Language Models for Enterprise AI

papers.abstract

Support