Penguin-VL: Erforschung der Effizienzgrenzen von VLM mit LLM-basierten Vision-Encodern

Zusammenfassung

Die Entwicklung von Vision-Language-Modellen (VLM) hat sich weitgehend auf die Skalierung der Modellgröße gestützt, was den Einsatz auf rechenbeschränkten mobilen und Edge-Geräten wie Smartphones und Robotern behindert. In dieser Arbeit untersuchen wir die Leistungsgrenzen kompakter (z.B. 2B und 8B) VLMs. Wir stellen die vorherrschende Praxis infrage, dass state-of-the-art VLMs auf Vision-Encodern aufbauen müssen, die durch massives kontrastives Vortraining (z.B. CLIP/SigLIP) initialisiert werden. Wir identifizieren eine Zielkonflikts: Kontrastives Lernen, das auf Diskriminierung optimiert ist, erzwingt grobe, kategoriebezogene Invarianzen, die feinkörnige visuelle Hinweise unterdrücken, die für Dense Captioning und komplexe VLM-Beweisführung benötigt werden. Um dieses Problem zu adressieren, stellen wir Penguin-VL vor, dessen Vision-Encoder aus einem textbasierten LLM initialisiert wird. Unsere Experimente zeigen, dass Penguin-Encoder eine überlegene Alternative zum traditionellen kontrastiven Vortraining darstellt und einen höheren Grad an visueller Treue und Dateneffizienz für multimodales Verständnis ermöglicht. In verschiedenen Bild- und Video-Benchmarks erreicht Penguin-VL eine mit führenden VLMs (z.B. Qwen3-VL) vergleichbare Leistung in mathematischer Beweisführung und übertrifft sie in Aufgaben wie Dokumentenverständnis, visuellem Wissen und multiperspektivischem Videoverständnis. Bemerkenswerterweise werden diese Gewinne mit einer leichtgewichtigen Architektur erzielt, was demonstriert, dass verbesserte visuelle Repräsentation und nicht Modellskalierung der primäre Leistungstreiber ist. Unsere Ablation Studies zeigen, dass Penguin-Encoder durch kontrastives Vortraining trainierte Encoder konsistent übertrifft und feinkörnige räumliche und zeitliche Hinweise bewahrt, die für dichte Wahrnehmung und komplexe Beweisführung kritisch sind. Dies macht ihn zu einer starken Drop-in-Alternative für recheneffiziente VLMs und ermöglicht hohe Leistung in ressourcenbeschränkten Umgebungen. Code: https://github.com/tencent-ailab/Penguin-VL

English

Vision Language Model (VLM) development has largely relied on scaling model size, which hinders deployment on compute-constrained mobile and edge devices such as smartphones and robots. In this work, we explore the performance limits of compact (e.g., 2B and 8B) VLMs. We challenge the prevailing practice that state-of-the-art VLMs must rely on vision encoders initialized via massive contrastive pretraining (e.g., CLIP/SigLIP). We identify an objective mismatch: contrastive learning, optimized for discrimination, enforces coarse and category-level invariances that suppress fine-grained visual cues needed for dense captioning and complex VLM reasoning. To address this issue, we present Penguin-VL, whose vision encoder is initialized from a text-only LLM. Our experiments reveal that Penguin-Encoder serves as a superior alternative to traditional contrastive pretraining, unlocking a higher degree of visual fidelity and data efficiency for multimodal understanding. Across various image and video benchmarks, Penguin-VL achieves performance comparable to leading VLMs (e.g., Qwen3-VL) in mathematical reasoning and surpasses them in tasks such as document understanding, visual knowledge, and multi-perspective video understanding. Notably, these gains are achieved with a lightweight architecture, demonstrating that improved visual representation rather than model scaling is the primary driver of performance. Our ablations show that Penguin-Encoder consistently outperforms contrastive-pretrained encoders, preserving fine-grained spatial and temporal cues that are critical for dense perception and complex reasoning. This makes it a strong drop-in alternative for compute-efficient VLMs and enables high performance in resource-constrained settings. Code: https://github.com/tencent-ailab/Penguin-VL

Penguin-VL: Erforschung der Effizienzgrenzen von VLM mit LLM-basierten Vision-Encodern

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

Zusammenfassung

Support