Penguin-VL: Explorando los Límites de Eficiencia de los VLM con Codificadores Visuales Basados en LLM

Resumen

El desarrollo de Modelos de Lenguaje Visual (VLM) se ha basado en gran medida en el escalado del tamaño del modelo, lo que dificulta su despliegue en dispositivos móviles y periféricos con recursos computacionales limitados, como teléfonos inteligentes y robots. En este trabajo, exploramos los límites de rendimiento de los VLM compactos (por ejemplo, de 2B y 8B). Cuestionamos la práctica predominante de que los VLM de vanguardia deben depender de codificadores visuales inicializados mediante un preentrenamiento contrastivo masivo (por ejemplo, CLIP/SigLIP). Identificamos un desajuste de objetivos: el aprendizaje contrastivo, optimizado para la discriminación, impone invarianzas gruesas y a nivel de categoría que suprimen las señales visuales detalladas necesarias para el captioning denso y el razonamiento complejo en VLM. Para abordar este problema, presentamos Penguin-VL, cuyo codificador visual se inicializa a partir de un LLM basado únicamente en texto. Nuestros experimentos revelan que Penguin-Encoder sirve como una alternativa superior al preentrenamiento contrastivo tradicional, desbloqueando un mayor grado de fidelidad visual y eficiencia de datos para la comprensión multimodal. En varios benchmarks de imagen y video, Penguin-VL logra un rendimiento comparable al de los principales VLM (por ejemplo, Qwen3-VL) en razonamiento matemático y los supera en tareas como comprensión de documentos, conocimiento visual y comprensión de video multiperspectiva. Notablemente, estas mejoras se logran con una arquitectura ligera, demostrando que una representación visual mejorada, y no el escalado del modelo, es el principal impulsor del rendimiento. Nuestras ablaciones muestran que Penguin-Encoder supera consistentemente a los codificadores preentrenados de forma contrastiva, preservando señales espaciales y temporales detalladas que son críticas para la percepción densa y el razonamiento complejo. Esto lo convierte en una alternativa de reemplazo sólida para VLM eficientes en computación y permite un alto rendimiento en entornos con recursos limitados. Código: https://github.com/tencent-ailab/Penguin-VL

English

Vision Language Model (VLM) development has largely relied on scaling model size, which hinders deployment on compute-constrained mobile and edge devices such as smartphones and robots. In this work, we explore the performance limits of compact (e.g., 2B and 8B) VLMs. We challenge the prevailing practice that state-of-the-art VLMs must rely on vision encoders initialized via massive contrastive pretraining (e.g., CLIP/SigLIP). We identify an objective mismatch: contrastive learning, optimized for discrimination, enforces coarse and category-level invariances that suppress fine-grained visual cues needed for dense captioning and complex VLM reasoning. To address this issue, we present Penguin-VL, whose vision encoder is initialized from a text-only LLM. Our experiments reveal that Penguin-Encoder serves as a superior alternative to traditional contrastive pretraining, unlocking a higher degree of visual fidelity and data efficiency for multimodal understanding. Across various image and video benchmarks, Penguin-VL achieves performance comparable to leading VLMs (e.g., Qwen3-VL) in mathematical reasoning and surpasses them in tasks such as document understanding, visual knowledge, and multi-perspective video understanding. Notably, these gains are achieved with a lightweight architecture, demonstrating that improved visual representation rather than model scaling is the primary driver of performance. Our ablations show that Penguin-Encoder consistently outperforms contrastive-pretrained encoders, preserving fine-grained spatial and temporal cues that are critical for dense perception and complex reasoning. This makes it a strong drop-in alternative for compute-efficient VLMs and enables high performance in resource-constrained settings. Code: https://github.com/tencent-ailab/Penguin-VL

Penguin-VL: Explorando los Límites de Eficiencia de los VLM con Codificadores Visuales Basados en LLM

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

Resumen

Support