Penguin-VL: Explorando os Limites de Eficiência de VLM com Codificadores de Visão Baseados em LLM

Resumo

O desenvolvimento de Modelos de Linguagem Visual (VLMs) tem dependido amplamente do aumento do tamanho dos modelos, o que dificulta a implantação em dispositivos móveis e de borda com recursos computacionais limitados, como smartphones e robôs. Neste trabalho, exploramos os limites de desempenho de VLMs compactos (por exemplo, 2B e 8B). Questionamos a prática predominante de que os VLMs de última geração devem depender de codificadores visuais inicializados por meio de pré-treinamento contrastivo massivo (por exemplo, CLIP/SigLIP). Identificamos um descompasso de objetivo: o aprendizado contrastivo, otimizado para discriminação, impõe invariâncias em nível categórico e grosseiro que suprimem pistas visuais refinadas necessárias para legendagem densa e raciocínio VLM complexo. Para resolver essa questão, apresentamos o Penguin-VL, cujo codificador visual é inicializado a partir de um LLM apenas de texto. Nossos experimentos revelam que o Penguin-Encoder serve como uma alternativa superior ao pré-treinamento contrastivo tradicional, desbloqueando um maior grau de fidelidade visual e eficiência de dados para compreensão multimodal. Em vários benchmarks de imagem e vídeo, o Penguin-VL atua de forma comparável aos principais VLMs (por exemplo, Qwen3-VL) em raciocínio matemático e os supera em tarefas como compreensão de documentos, conhecimento visual e compreensão de vídeo multiperspectiva. Notavelmente, esses ganhos são alcançados com uma arquitetura leve, demonstrando que a representação visual aprimorada, e não o escalonamento do modelo, é o principal impulsionador do desempenho. Nossas ablações mostram que o Penguin-Encoder supera consistentemente os codificadores pré-treinados contrastivamente, preservando pistas espaciais e temporais refinadas que são críticas para percepção densa e raciocínio complexo. Isso o torna uma alternativa robusta de substituição para VLMs computacionalmente eficientes e permite alto desempenho em ambientes com recursos limitados. Código: https://github.com/tencent-ailab/Penguin-VL

English

Vision Language Model (VLM) development has largely relied on scaling model size, which hinders deployment on compute-constrained mobile and edge devices such as smartphones and robots. In this work, we explore the performance limits of compact (e.g., 2B and 8B) VLMs. We challenge the prevailing practice that state-of-the-art VLMs must rely on vision encoders initialized via massive contrastive pretraining (e.g., CLIP/SigLIP). We identify an objective mismatch: contrastive learning, optimized for discrimination, enforces coarse and category-level invariances that suppress fine-grained visual cues needed for dense captioning and complex VLM reasoning. To address this issue, we present Penguin-VL, whose vision encoder is initialized from a text-only LLM. Our experiments reveal that Penguin-Encoder serves as a superior alternative to traditional contrastive pretraining, unlocking a higher degree of visual fidelity and data efficiency for multimodal understanding. Across various image and video benchmarks, Penguin-VL achieves performance comparable to leading VLMs (e.g., Qwen3-VL) in mathematical reasoning and surpasses them in tasks such as document understanding, visual knowledge, and multi-perspective video understanding. Notably, these gains are achieved with a lightweight architecture, demonstrating that improved visual representation rather than model scaling is the primary driver of performance. Our ablations show that Penguin-Encoder consistently outperforms contrastive-pretrained encoders, preserving fine-grained spatial and temporal cues that are critical for dense perception and complex reasoning. This makes it a strong drop-in alternative for compute-efficient VLMs and enables high performance in resource-constrained settings. Code: https://github.com/tencent-ailab/Penguin-VL

Penguin-VL: Explorando os Limites de Eficiência de VLM com Codificadores de Visão Baseados em LLM

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

Resumo

Support