ChatPaper.aiChatPaper

De Generalista a Especialista: Adaptando Modelos de Linguagem Visual por meio de Ajuste de Instrução Visual Específica da Tarefa

From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning

October 9, 2024
Autores: Yang Bai, Yang Zhou, Jun Zhou, Rick Siow Mong Goh, Daniel Shu Wei Ting, Yong Liu
cs.AI

Resumo

Os modelos de linguagem com visão ampla (VLMs) combinam grandes modelos de linguagem com codificadores de visão, demonstrando promessa em várias tarefas. No entanto, muitas vezes apresentam desempenho inferior em aplicações específicas devido a lacunas de domínio entre o pré-treinamento e o ajuste fino. Apresentamos o VITask, um novo framework que aprimora a adaptabilidade específica da tarefa dos VLMs integrando modelos específicos da tarefa (TSMs). O VITask emprega três estratégias-chave: estímulo de exemplar (EP), alinhamento de distribuição de respostas (RDA) e ajuste de respostas contrastivas (CRT) para melhorar o desempenho específico da tarefa dos VLMs ajustando suas distribuições de respostas. O EP permite que as características do TSM guiem os VLMs, enquanto o RDA permite que os VLMs se adaptem sem os TSMs durante a inferência, aprendendo com modelos estimulados por exemplares. O CRT otimiza ainda mais a classificação de pares corretos de imagem-resposta, reduzindo assim o risco de gerar respostas indesejadas. Experimentos em 12 conjuntos de dados de diagnóstico médico em 9 modalidades de imagem mostram que o VITask supera tanto os VLMs ajustados por instrução simples quanto os TSMs, demonstrando sua capacidade de integrar efetivamente características complementares de ambos os modelos. Além disso, o VITask oferece vantagens práticas, como integração flexível de TSM e robustez a instruções incompletas, tornando-o uma solução versátil e eficiente para ajuste de VLM específico da tarefa. Nosso código está disponível em https://github.com/baiyang4/VITask.
English
Large vision language models (VLMs) combine large language models with vision encoders, demonstrating promise across various tasks. However, they often underperform in task-specific applications due to domain gaps between pre-training and fine-tuning. We introduce VITask, a novel framework that enhances task-specific adaptability of VLMs by integrating task-specific models (TSMs). VITask employs three key strategies: exemplar prompting (EP), response distribution alignment (RDA), and contrastive response tuning (CRT) to improve the task-specific performance of VLMs by adjusting their response distributions. EP allows TSM features to guide VLMs, while RDA enables VLMs to adapt without TSMs during inference by learning from exemplar-prompted models. CRT further optimizes the ranking of correct image-response pairs, thereby reducing the risk of generating undesired responses. Experiments on 12 medical diagnosis datasets across 9 imaging modalities show that VITask outperforms both vanilla instruction-tuned VLMs and TSMs, showcasing its ability to integrate complementary features from both models effectively. Additionally, VITask offers practical advantages such as flexible TSM integration and robustness to incomplete instructions, making it a versatile and efficient solution for task-specific VLM tuning. Our code are available at https://github.com/baiyang4/VITask.

Summary

AI-Generated Summary

PDF382November 16, 2024