Penguin-VL: Het Verkennen van de Efficiëntiegrenzen van VLM met op LLM Gebaseerde Visuele Encoders

Samenvatting

De ontwikkeling van Vision Language Models (VLM's) is grotendeels afhankelijk geweest van het vergroten van het modelformaat, wat de inzet op rekenkracht-beperkte mobiele en edge-apparaten zoals smartphones en robots belemmert. In dit werk verkennen we de prestatiegrenzen van compacte (bijvoorbeeld 2B en 8B) VLM's. We betwisten de heersende praktijk dat state-of-the-art VLM's moeten vertrouwen op visuele encoders die geïnitialiseerd zijn via massale contrastieve pre-training (bijvoorbeeld CLIP/SigLIP). We identificeren een doelmatigheidsprobleem: contrastief leren, geoptimaliseerd voor discriminatie, legt grove en categoriale invarianties op die fijnmazige visuele aanwijzingen onderdrukken die nodig zijn voor dichte beeldbeschrijving en complexe VLM-redenering. Om dit probleem aan te pakken, presenteren we Penguin-VL, waarvan de visuele encoder wordt geïnitialiseerd vanuit een tekst-only LLM. Onze experimenten tonen aan dat Penguin-Encoder een superieur alternatief biedt voor traditionele contrastieve pre-training, waardoor een hogere mate van visuele nauwkeurigheid en data-efficiëntie voor multimodaal begrip wordt ontsloten. Op diverse beeld- en videobenchmarks bereikt Penguin-VL prestaties die vergelijkbaar zijn met toonaangevende VLM's (bijvoorbeeld Qwen3-VL) in wiskundig redeneren en overtreft het deze in taken zoals documentbegrip, visuele kennis en multi-perspectief videobegrip. Opmerkelijk is dat deze winst wordt behaald met een lichtgewicht architectuur, wat aantoont dat verbeterde visuele representatie, en niet modelschaling, de primaire drijver is van de prestaties. Onze ablatiestudies tonen aan dat Penguin-Encoder consistent beter presteert dan contrastief getrainde encoders, waarbij fijnmazige ruimtelijke en temporele aanwijzingen behouden blijven die cruciaal zijn voor dichte perceptie en complexe redenering. Dit maakt het een sterk drop-in alternatief voor reken-efficiënte VLM's en stelt hoge prestaties mogelijk in omgevingen met beperkte middelen. Code: https://github.com/tencent-ailab/Penguin-VL

English

Vision Language Model (VLM) development has largely relied on scaling model size, which hinders deployment on compute-constrained mobile and edge devices such as smartphones and robots. In this work, we explore the performance limits of compact (e.g., 2B and 8B) VLMs. We challenge the prevailing practice that state-of-the-art VLMs must rely on vision encoders initialized via massive contrastive pretraining (e.g., CLIP/SigLIP). We identify an objective mismatch: contrastive learning, optimized for discrimination, enforces coarse and category-level invariances that suppress fine-grained visual cues needed for dense captioning and complex VLM reasoning. To address this issue, we present Penguin-VL, whose vision encoder is initialized from a text-only LLM. Our experiments reveal that Penguin-Encoder serves as a superior alternative to traditional contrastive pretraining, unlocking a higher degree of visual fidelity and data efficiency for multimodal understanding. Across various image and video benchmarks, Penguin-VL achieves performance comparable to leading VLMs (e.g., Qwen3-VL) in mathematical reasoning and surpasses them in tasks such as document understanding, visual knowledge, and multi-perspective video understanding. Notably, these gains are achieved with a lightweight architecture, demonstrating that improved visual representation rather than model scaling is the primary driver of performance. Our ablations show that Penguin-Encoder consistently outperforms contrastive-pretrained encoders, preserving fine-grained spatial and temporal cues that are critical for dense perception and complex reasoning. This makes it a strong drop-in alternative for compute-efficient VLMs and enables high performance in resource-constrained settings. Code: https://github.com/tencent-ailab/Penguin-VL

Penguin-VL: Het Verkennen van de Efficiëntiegrenzen van VLM met op LLM Gebaseerde Visuele Encoders

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

Samenvatting

Support