GenRecal: Generación tras Recalibración de Modelos de Visión-Lenguaje de Grande a Pequeño

Resumen

Los avances recientes en los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) han aprovechado los grandes modelos de lenguaje (LLMs) para alcanzar un rendimiento comparable con sistemas de código cerrado como GPT-4V. Sin embargo, desplegar estos modelos en escenarios del mundo real, particularmente en dispositivos con recursos limitados, sigue siendo un desafío debido a sus considerables demandas computacionales. Esto ha impulsado el interés en destilar conocimiento de los VLMs grandes hacia contrapartes más pequeñas y eficientes. Un desafío clave surge aquí de la diversidad de arquitecturas de VLMs, que se construyen sobre diferentes LLMs y emplean tipos de tokens variados, que difieren en el tamaño del vocabulario, las divisiones de tokens y el orden de los índices de tokens. Para abordar este desafío de limitación a un tipo específico de VLM, presentamos Generation after Recalibration (GenRecal), un marco novedoso y de propósito general para la destilación de VLMs. GenRecal incorpora un Recalibrador que alinea y adapta las representaciones de características entre VLMs heterogéneos, permitiendo una transferencia efectiva de conocimiento entre diferentes tipos de VLMs. A través de experimentos extensos en múltiples benchmarks desafiantes, demostramos que GenRecal mejora significativamente los rendimientos de referencia, superando eventualmente a VLMs de gran escala, tanto de código abierto como cerrado.

English

Recent advancements in vision-language models (VLMs) have leveraged large language models (LLMs) to achieve performance on par with closed-source systems like GPT-4V. However, deploying these models in real-world scenarios, particularly on resource-constrained devices, remains challenging due to their substantial computational demands. This has spurred interest in distilling knowledge from large VLMs into smaller, more efficient counterparts. A key challenge arises here from the diversity of VLM architectures, which are built on different LLMs and employ varying token types-differing in vocabulary size, token splits, and token index ordering. To address this challenge of limitation to a specific VLM type, we present Generation after Recalibration (GenRecal), a novel, general-purpose distillation framework for VLMs. GenRecal incorporates a Recalibrator that aligns and adapts feature representations between heterogeneous VLMs, enabling effective knowledge transfer across different types of VLMs. Through extensive experiments on multiple challenging benchmarks, we demonstrate that GenRecal significantly improves baseline performances, eventually outperforming large-scale open- and closed-source VLMs.

GenRecal: Generación tras Recalibración de Modelos de Visión-Lenguaje de Grande a Pequeño

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

Resumen

Support