ChatPaper.aiChatPaper

Penguin-VL: Esplorare i Limiti di Efficienza dei VLM con Encoder Visivi Basati su LLM

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

March 6, 2026
Autori: Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang
cs.AI

Abstract

Lo sviluppo di modelli linguistici visivi (VLM) si è basato in larga misura sul ridimensionamento della dimensione del modello, il che ne ostacola la distribuzione su dispositivi mobili e periferici con risorse computazionali limitate, come smartphone e robot. In questo lavoro, esploriamo i limiti delle prestazioni di VLM compatti (ad esempio, da 2B e 8B). Mettiamo in discussione la pratica prevalente secondo cui i VLM all'avanguardia devono fare affidamento su encoder visivi inizializzati tramite pre-addestramento contrastivo massiccio (ad esempio, CLIP/SigLIP). Identifichiamo un disallineamento degli obiettivi: l'apprendimento contrastivo, ottimizzato per la discriminazione, impone invarianze grossolane e a livello di categoria che sopprimono gli indizi visivi di fine granularità necessari per la descrizione densa e il ragionamento complesso dei VLM. Per affrontare questo problema, presentiamo Penguin-VL, il cui encoder visivo è inizializzato a partire da un LLM basato solo su testo. I nostri esperimenti rivelano che Penguin-Encoder funge da alternativa superiore al tradizionale pre-addestramento contrastivo, sbloccando un grado più elevato di fedeltà visiva ed efficienza dei dati per la comprensione multimodale. In varie benchmark su immagini e video, Penguin-VL raggiunge prestazioni paragonabili ai principali VLM (ad esempio, Qwen3-VL) nel ragionamento matematico e li supera in compiti come la comprensione di documenti, la conoscenza visiva e la comprensione video multi-prospettica. È degno di nota che questi vantaggi siano ottenuti con un'architettura leggera, dimostrando che il miglioramento della rappresentazione visiva, piuttosto che il ridimensionamento del modello, è il principale motore delle prestazioni. Le nostre ablazioni mostrano che Penguin-Encoder supera costantemente gli encoder pre-addestrati in modo contrastivo, preservando indizi spaziali e temporali di fine granularità che sono critici per la percezione densa e il ragionamento complesso. Ciò lo rende una valida alternativa plug-and-play per VLM efficienti dal punto di vista computazionale e consente prestazioni elevate in contesti con risorse limitate. Codice: https://github.com/tencent-ailab/Penguin-VL
English
Vision Language Model (VLM) development has largely relied on scaling model size, which hinders deployment on compute-constrained mobile and edge devices such as smartphones and robots. In this work, we explore the performance limits of compact (e.g., 2B and 8B) VLMs. We challenge the prevailing practice that state-of-the-art VLMs must rely on vision encoders initialized via massive contrastive pretraining (e.g., CLIP/SigLIP). We identify an objective mismatch: contrastive learning, optimized for discrimination, enforces coarse and category-level invariances that suppress fine-grained visual cues needed for dense captioning and complex VLM reasoning. To address this issue, we present Penguin-VL, whose vision encoder is initialized from a text-only LLM. Our experiments reveal that Penguin-Encoder serves as a superior alternative to traditional contrastive pretraining, unlocking a higher degree of visual fidelity and data efficiency for multimodal understanding. Across various image and video benchmarks, Penguin-VL achieves performance comparable to leading VLMs (e.g., Qwen3-VL) in mathematical reasoning and surpasses them in tasks such as document understanding, visual knowledge, and multi-perspective video understanding. Notably, these gains are achieved with a lightweight architecture, demonstrating that improved visual representation rather than model scaling is the primary driver of performance. Our ablations show that Penguin-Encoder consistently outperforms contrastive-pretrained encoders, preserving fine-grained spatial and temporal cues that are critical for dense perception and complex reasoning. This makes it a strong drop-in alternative for compute-efficient VLMs and enables high performance in resource-constrained settings. Code: https://github.com/tencent-ailab/Penguin-VL
PDF824March 10, 2026