De Generalista a Especialista: Adaptando Modelos de Linguagem Visual por meio de Ajuste de Instrução Visual Específica da Tarefa
From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning
October 9, 2024
Autores: Yang Bai, Yang Zhou, Jun Zhou, Rick Siow Mong Goh, Daniel Shu Wei Ting, Yong Liu
cs.AI
Resumo
Os modelos de linguagem com visão ampla (VLMs) combinam grandes modelos de linguagem com codificadores de visão, demonstrando promessa em várias tarefas. No entanto, muitas vezes apresentam desempenho inferior em aplicações específicas devido a lacunas de domínio entre o pré-treinamento e o ajuste fino. Apresentamos o VITask, um novo framework que aprimora a adaptabilidade específica da tarefa dos VLMs integrando modelos específicos da tarefa (TSMs). O VITask emprega três estratégias-chave: estímulo de exemplar (EP), alinhamento de distribuição de respostas (RDA) e ajuste de respostas contrastivas (CRT) para melhorar o desempenho específico da tarefa dos VLMs ajustando suas distribuições de respostas. O EP permite que as características do TSM guiem os VLMs, enquanto o RDA permite que os VLMs se adaptem sem os TSMs durante a inferência, aprendendo com modelos estimulados por exemplares. O CRT otimiza ainda mais a classificação de pares corretos de imagem-resposta, reduzindo assim o risco de gerar respostas indesejadas. Experimentos em 12 conjuntos de dados de diagnóstico médico em 9 modalidades de imagem mostram que o VITask supera tanto os VLMs ajustados por instrução simples quanto os TSMs, demonstrando sua capacidade de integrar efetivamente características complementares de ambos os modelos. Além disso, o VITask oferece vantagens práticas, como integração flexível de TSM e robustez a instruções incompletas, tornando-o uma solução versátil e eficiente para ajuste de VLM específico da tarefa. Nosso código está disponível em https://github.com/baiyang4/VITask.
English
Large vision language models (VLMs) combine large language models with vision
encoders, demonstrating promise across various tasks. However, they often
underperform in task-specific applications due to domain gaps between
pre-training and fine-tuning. We introduce VITask, a novel framework that
enhances task-specific adaptability of VLMs by integrating task-specific models
(TSMs). VITask employs three key strategies: exemplar prompting (EP), response
distribution alignment (RDA), and contrastive response tuning (CRT) to improve
the task-specific performance of VLMs by adjusting their response
distributions. EP allows TSM features to guide VLMs, while RDA enables VLMs to
adapt without TSMs during inference by learning from exemplar-prompted models.
CRT further optimizes the ranking of correct image-response pairs, thereby
reducing the risk of generating undesired responses. Experiments on 12 medical
diagnosis datasets across 9 imaging modalities show that VITask outperforms
both vanilla instruction-tuned VLMs and TSMs, showcasing its ability to
integrate complementary features from both models effectively. Additionally,
VITask offers practical advantages such as flexible TSM integration and
robustness to incomplete instructions, making it a versatile and efficient
solution for task-specific VLM tuning. Our code are available at
https://github.com/baiyang4/VITask.Summary
AI-Generated Summary