Penguin-VL: Исследование пределов эффективности VLM с использованием визуальных энкодеров на основе LLM
Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders
March 6, 2026
Авторы: Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang
cs.AI
Аннотация
Разработка моделей Vision Language Model (VLM) в значительной степени опиралась на масштабирование размера модели, что затрудняет развертывание на мобильных и периферийных устройствах с ограниченными вычислительными ресурсами, таких как смартфоны и роботы. В данной работе мы исследуем пределы производительности компактных (например, 2B и 8B) VLM. Мы ставим под сомнение преобладающую практику, согласно которой передовые VLM должны полагаться на визуальные энкодеры, инициализированные с помощью масштабного контрастивного предобучения (например, CLIP/SigLIP). Мы выявляем несоответствие целей: контрастивное обучение, оптимизированное для различения, обеспечивает грубые инвариантности на уровне категорий, которые подавляют мелкозернистые визуальные сигналы, необходимые для плотного описания изображений и сложных рассуждений в VLM. Чтобы решить эту проблему, мы представляем Penguin-VL, чей визуальный энкодер инициализируется из языковой модели (LLM), обученной только на тексте. Наши эксперименты показывают, что Penguin-Encoder служит превосходной альтернативой традиционному контрастивному предобучению, открывая путь к более высокой степени визуальной точности и эффективности использования данных для мультимодального понимания. На различных бенчмарках для изображений и видео Penguin-VL демонстрирует производительность, сопоставимую с ведущими VLM (например, Qwen3-VL) в математических рассуждениях, и превосходит их в таких задачах, как понимание документов, визуальные знания и многоперспективное понимание видео. Примечательно, что эти достижения реализованы в легковесной архитектуре, что демонстрирует: именно улучшенное визуальное представление, а не масштабирование модели, является основным драйвером производительности. Наши ablation-исследования показывают, что Penguin-Encoder стабильно превосходит энкодеры, прошедшие контрастивное предобучение, сохраняя мелкозернистые пространственные и временные сигналы, которые критически важны для плотного восприятия и сложных рассуждений. Это делает его мощной готовой альтернативой для создания энергоэффективных VLM и позволяет достигать высокой производительности в условиях ограниченных ресурсов. Код: https://github.com/tencent-ailab/Penguin-VL
English
Vision Language Model (VLM) development has largely relied on scaling model size, which hinders deployment on compute-constrained mobile and edge devices such as smartphones and robots. In this work, we explore the performance limits of compact (e.g., 2B and 8B) VLMs. We challenge the prevailing practice that state-of-the-art VLMs must rely on vision encoders initialized via massive contrastive pretraining (e.g., CLIP/SigLIP). We identify an objective mismatch: contrastive learning, optimized for discrimination, enforces coarse and category-level invariances that suppress fine-grained visual cues needed for dense captioning and complex VLM reasoning. To address this issue, we present Penguin-VL, whose vision encoder is initialized from a text-only LLM. Our experiments reveal that Penguin-Encoder serves as a superior alternative to traditional contrastive pretraining, unlocking a higher degree of visual fidelity and data efficiency for multimodal understanding. Across various image and video benchmarks, Penguin-VL achieves performance comparable to leading VLMs (e.g., Qwen3-VL) in mathematical reasoning and surpasses them in tasks such as document understanding, visual knowledge, and multi-perspective video understanding. Notably, these gains are achieved with a lightweight architecture, demonstrating that improved visual representation rather than model scaling is the primary driver of performance. Our ablations show that Penguin-Encoder consistently outperforms contrastive-pretrained encoders, preserving fine-grained spatial and temporal cues that are critical for dense perception and complex reasoning. This makes it a strong drop-in alternative for compute-efficient VLMs and enables high performance in resource-constrained settings. Code: https://github.com/tencent-ailab/Penguin-VL