GenRecal: Generación tras Recalibración de Modelos de Visión-Lenguaje de Grande a Pequeño
GenRecal: Generation after Recalibration from Large to Small Vision-Language Models
June 18, 2025
Autores: Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu
cs.AI
Resumen
Los avances recientes en los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) han aprovechado los grandes modelos de lenguaje (LLMs) para alcanzar un rendimiento comparable con sistemas de código cerrado como GPT-4V. Sin embargo, desplegar estos modelos en escenarios del mundo real, particularmente en dispositivos con recursos limitados, sigue siendo un desafío debido a sus considerables demandas computacionales. Esto ha impulsado el interés en destilar conocimiento de los VLMs grandes hacia contrapartes más pequeñas y eficientes. Un desafío clave surge aquí de la diversidad de arquitecturas de VLMs, que se construyen sobre diferentes LLMs y emplean tipos de tokens variados, que difieren en el tamaño del vocabulario, las divisiones de tokens y el orden de los índices de tokens. Para abordar este desafío de limitación a un tipo específico de VLM, presentamos Generation after Recalibration (GenRecal), un marco novedoso y de propósito general para la destilación de VLMs. GenRecal incorpora un Recalibrador que alinea y adapta las representaciones de características entre VLMs heterogéneos, permitiendo una transferencia efectiva de conocimiento entre diferentes tipos de VLMs. A través de experimentos extensos en múltiples benchmarks desafiantes, demostramos que GenRecal mejora significativamente los rendimientos de referencia, superando eventualmente a VLMs de gran escala, tanto de código abierto como cerrado.
English
Recent advancements in vision-language models (VLMs) have leveraged large
language models (LLMs) to achieve performance on par with closed-source systems
like GPT-4V. However, deploying these models in real-world scenarios,
particularly on resource-constrained devices, remains challenging due to their
substantial computational demands. This has spurred interest in distilling
knowledge from large VLMs into smaller, more efficient counterparts. A key
challenge arises here from the diversity of VLM architectures, which are built
on different LLMs and employ varying token types-differing in vocabulary size,
token splits, and token index ordering. To address this challenge of limitation
to a specific VLM type, we present Generation after Recalibration (GenRecal), a
novel, general-purpose distillation framework for VLMs. GenRecal incorporates a
Recalibrator that aligns and adapts feature representations between
heterogeneous VLMs, enabling effective knowledge transfer across different
types of VLMs. Through extensive experiments on multiple challenging
benchmarks, we demonstrate that GenRecal significantly improves baseline
performances, eventually outperforming large-scale open- and closed-source
VLMs.