GenRecal: Geração após Recalibração de Modelos de Grande para Pequena Escala de Visão e Linguagem
GenRecal: Generation after Recalibration from Large to Small Vision-Language Models
June 18, 2025
Autores: Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu
cs.AI
Resumo
Avanços recentes em modelos de visão e linguagem (VLMs) têm aproveitado grandes modelos de linguagem (LLMs) para alcançar desempenho comparável a sistemas proprietários como o GPT-4V. No entanto, a implantação desses modelos em cenários do mundo real, especialmente em dispositivos com recursos limitados, continua desafiadora devido às suas demandas computacionais substanciais. Isso tem despertado interesse em destilar conhecimento de VLMs grandes para versões menores e mais eficientes. Um desafio crucial surge aqui da diversidade de arquiteturas de VLMs, que são construídas sobre diferentes LLMs e empregam tipos variados de tokens — diferindo em tamanho de vocabulário, divisões de tokens e ordenação de índices de tokens. Para abordar esse desafio de limitação a um tipo específico de VLM, apresentamos o Generation after Recalibration (GenRecal), uma nova estrutura de destilação de propósito geral para VLMs. O GenRecal incorpora um Recalibrador que alinha e adapta representações de características entre VLMs heterogêneos, permitindo uma transferência eficaz de conhecimento entre diferentes tipos de VLMs. Por meio de extensos experimentos em vários benchmarks desafiadores, demonstramos que o GenRecal melhora significativamente os desempenhos de linha de base, eventualmente superando VLMs de grande escala, tanto de código aberto quanto proprietários.
English
Recent advancements in vision-language models (VLMs) have leveraged large
language models (LLMs) to achieve performance on par with closed-source systems
like GPT-4V. However, deploying these models in real-world scenarios,
particularly on resource-constrained devices, remains challenging due to their
substantial computational demands. This has spurred interest in distilling
knowledge from large VLMs into smaller, more efficient counterparts. A key
challenge arises here from the diversity of VLM architectures, which are built
on different LLMs and employ varying token types-differing in vocabulary size,
token splits, and token index ordering. To address this challenge of limitation
to a specific VLM type, we present Generation after Recalibration (GenRecal), a
novel, general-purpose distillation framework for VLMs. GenRecal incorporates a
Recalibrator that aligns and adapts feature representations between
heterogeneous VLMs, enabling effective knowledge transfer across different
types of VLMs. Through extensive experiments on multiple challenging
benchmarks, we demonstrate that GenRecal significantly improves baseline
performances, eventually outperforming large-scale open- and closed-source
VLMs.