Penguin-VL : Explorer les limites d'efficacité des VLM avec des encodeurs visuels basés sur LLM

Résumé

Le développement des modèles de vision et langage (VLM) a largement reposé sur l'augmentation de la taille des modèles, ce qui entrave leur déploiement sur des appareils mobiles et périphériques à ressources limitées, tels que les smartphones et les robots. Dans ce travail, nous explorons les limites de performance des VLM compacts (par exemple, 2B et 8B). Nous remettons en question la pratique dominante selon laquelle les VLM à la pointe doivent s'appuyer sur des encodeurs visuels initialisés par un pré-entraînement contrastif massif (par exemple, CLIP/SigLIP). Nous identifions un problème d'alignement des objectifs : l'apprentissage contrastif, optimisé pour la discrimination, impose des invariances grossières et catégorielles qui suppriment les indices visuels fins nécessaires au sous-titrage dense et au raisonnement complexe des VLM. Pour résoudre ce problème, nous présentons Penguin-VL, dont l'encodeur visuel est initialisé à partir d'un LLM purement textuel. Nos expériences révèlent que Penguin-Encoder constitue une alternative supérieure au pré-entraînement contrastif traditionnel, permettant une fidélité visuelle et une efficacité des données accrues pour la compréhension multimodale. Sur divers benchmarks d'images et de vidéos, Penguin-VL atteint des performances comparables aux meilleurs VLM (par exemple, Qwen3-VL) en raisonnement mathématique et les dépasse dans des tâches telles que la compréhension de documents, les connaissances visuelles et la compréhension vidéo multi-perspectives. Notamment, ces gains sont obtenus avec une architecture légère, démontrant qu'une meilleure représentation visuelle, plutôt que la mise à l'échelle du modèle, est le principal facteur de performance. Nos ablations montrent que Penguin-Encoder surpasse systématiquement les encodeurs pré-entraînés de manière contrastive, préservant les indices spatiaux et temporels fins qui sont essentiels pour la perception dense et le raisonnement complexe. Cela en fait une alternative de remplacement solide pour les VLM économes en calcul et permet des performances élevées dans des environnements à ressources limitées. Code : https://github.com/tencent-ailab/Penguin-VL

English

Vision Language Model (VLM) development has largely relied on scaling model size, which hinders deployment on compute-constrained mobile and edge devices such as smartphones and robots. In this work, we explore the performance limits of compact (e.g., 2B and 8B) VLMs. We challenge the prevailing practice that state-of-the-art VLMs must rely on vision encoders initialized via massive contrastive pretraining (e.g., CLIP/SigLIP). We identify an objective mismatch: contrastive learning, optimized for discrimination, enforces coarse and category-level invariances that suppress fine-grained visual cues needed for dense captioning and complex VLM reasoning. To address this issue, we present Penguin-VL, whose vision encoder is initialized from a text-only LLM. Our experiments reveal that Penguin-Encoder serves as a superior alternative to traditional contrastive pretraining, unlocking a higher degree of visual fidelity and data efficiency for multimodal understanding. Across various image and video benchmarks, Penguin-VL achieves performance comparable to leading VLMs (e.g., Qwen3-VL) in mathematical reasoning and surpasses them in tasks such as document understanding, visual knowledge, and multi-perspective video understanding. Notably, these gains are achieved with a lightweight architecture, demonstrating that improved visual representation rather than model scaling is the primary driver of performance. Our ablations show that Penguin-Encoder consistently outperforms contrastive-pretrained encoders, preserving fine-grained spatial and temporal cues that are critical for dense perception and complex reasoning. This makes it a strong drop-in alternative for compute-efficient VLMs and enables high performance in resource-constrained settings. Code: https://github.com/tencent-ailab/Penguin-VL

Penguin-VL : Explorer les limites d'efficacité des VLM avec des encodeurs visuels basés sur LLM

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

Résumé

Support