GenRecal: Geração após Recalibração de Modelos de Grande para Pequena Escala de Visão e Linguagem

Resumo

Avanços recentes em modelos de visão e linguagem (VLMs) têm aproveitado grandes modelos de linguagem (LLMs) para alcançar desempenho comparável a sistemas proprietários como o GPT-4V. No entanto, a implantação desses modelos em cenários do mundo real, especialmente em dispositivos com recursos limitados, continua desafiadora devido às suas demandas computacionais substanciais. Isso tem despertado interesse em destilar conhecimento de VLMs grandes para versões menores e mais eficientes. Um desafio crucial surge aqui da diversidade de arquiteturas de VLMs, que são construídas sobre diferentes LLMs e empregam tipos variados de tokens — diferindo em tamanho de vocabulário, divisões de tokens e ordenação de índices de tokens. Para abordar esse desafio de limitação a um tipo específico de VLM, apresentamos o Generation after Recalibration (GenRecal), uma nova estrutura de destilação de propósito geral para VLMs. O GenRecal incorpora um Recalibrador que alinha e adapta representações de características entre VLMs heterogêneos, permitindo uma transferência eficaz de conhecimento entre diferentes tipos de VLMs. Por meio de extensos experimentos em vários benchmarks desafiadores, demonstramos que o GenRecal melhora significativamente os desempenhos de linha de base, eventualmente superando VLMs de grande escala, tanto de código aberto quanto proprietários.

English

Recent advancements in vision-language models (VLMs) have leveraged large language models (LLMs) to achieve performance on par with closed-source systems like GPT-4V. However, deploying these models in real-world scenarios, particularly on resource-constrained devices, remains challenging due to their substantial computational demands. This has spurred interest in distilling knowledge from large VLMs into smaller, more efficient counterparts. A key challenge arises here from the diversity of VLM architectures, which are built on different LLMs and employ varying token types-differing in vocabulary size, token splits, and token index ordering. To address this challenge of limitation to a specific VLM type, we present Generation after Recalibration (GenRecal), a novel, general-purpose distillation framework for VLMs. GenRecal incorporates a Recalibrator that aligns and adapts feature representations between heterogeneous VLMs, enabling effective knowledge transfer across different types of VLMs. Through extensive experiments on multiple challenging benchmarks, we demonstrate that GenRecal significantly improves baseline performances, eventually outperforming large-scale open- and closed-source VLMs.

GenRecal: Geração após Recalibração de Modelos de Grande para Pequena Escala de Visão e Linguagem

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

Resumo

Support