ChatPaper.aiChatPaper

Ajuste Personalizado de Instruções Visuais

Personalized Visual Instruction Tuning

October 9, 2024
Autores: Renjie Pi, Jianshu Zhang, Tianyang Han, Jipeng Zhang, Rui Pan, Tong Zhang
cs.AI

Resumo

Os avanços recentes em modelos de linguagem multimodais grandes (MLLMs) têm demonstrado progresso significativo; no entanto, esses modelos apresentam uma limitação notável, que denominamos "cegueira facial". Especificamente, eles podem participar de conversas gerais, mas falham em conduzir diálogos personalizados direcionados a indivíduos específicos. Essa deficiência dificulta a aplicação de MLLMs em ambientes personalizados, como assistentes visuais personalizados em dispositivos móveis, ou robôs domésticos que precisam reconhecer membros da família. Neste artigo, apresentamos o Ajuste Personalizado de Instruções Visuais (PVIT), um novo framework de curadoria de dados e treinamento projetado para capacitar MLLMs a identificar indivíduos-alvo em uma imagem e participar de diálogos personalizados e coerentes. Nossa abordagem envolve o desenvolvimento de um pipeline sofisticado que gera autonomamente dados de treinamento contendo conversas personalizadas. Esse pipeline aproveita as capacidades de vários especialistas visuais, modelos de geração de imagens e modelos de linguagem grandes (multi-modais). Para avaliar o potencial personalizado dos MLLMs, apresentamos um benchmark chamado P-Bench, que engloba vários tipos de perguntas com diferentes níveis de dificuldade. Os experimentos demonstram um substancial aprimoramento de desempenho personalizado após o ajuste fino com nosso conjunto de dados curados.
English
Recent advancements in multimodal large language models (MLLMs) have demonstrated significant progress; however, these models exhibit a notable limitation, which we refer to as "face blindness". Specifically, they can engage in general conversations but fail to conduct personalized dialogues targeting at specific individuals. This deficiency hinders the application of MLLMs in personalized settings, such as tailored visual assistants on mobile devices, or domestic robots that need to recognize members of the family. In this paper, we introduce Personalized Visual Instruction Tuning (PVIT), a novel data curation and training framework designed to enable MLLMs to identify target individuals within an image and engage in personalized and coherent dialogues. Our approach involves the development of a sophisticated pipeline that autonomously generates training data containing personalized conversations. This pipeline leverages the capabilities of various visual experts, image generation models, and (multi-modal) large language models. To evaluate the personalized potential of MLLMs, we present a benchmark called P-Bench, which encompasses various question types with different levels of difficulty. The experiments demonstrate a substantial personalized performance enhancement after fine-tuning with our curated dataset.

Summary

AI-Generated Summary

PDF712November 16, 2024