ChatPaper.aiChatPaper

Ajuste Personalizado de Instrucciones Visuales

Personalized Visual Instruction Tuning

October 9, 2024
Autores: Renjie Pi, Jianshu Zhang, Tianyang Han, Jipeng Zhang, Rui Pan, Tong Zhang
cs.AI

Resumen

Los avances recientes en modelos de lenguaje grandes multimodales (MLLMs) han demostrado un progreso significativo; sin embargo, estos modelos presentan una limitación notable, a la que nos referimos como "ceguera facial". Específicamente, pueden participar en conversaciones generales pero no logran llevar a cabo diálogos personalizados dirigidos a individuos específicos. Esta deficiencia obstaculiza la aplicación de MLLMs en entornos personalizados, como asistentes visuales personalizados en dispositivos móviles, o robots domésticos que necesitan reconocer a los miembros de la familia. En este documento, presentamos Personalized Visual Instruction Tuning (PVIT), un marco novedoso de curación de datos y entrenamiento diseñado para permitir a los MLLMs identificar individuos objetivo dentro de una imagen y participar en diálogos personalizados y coherentes. Nuestro enfoque implica el desarrollo de un sofisticado proceso que genera de forma autónoma datos de entrenamiento que contienen conversaciones personalizadas. Este proceso aprovecha las capacidades de varios expertos visuales, modelos de generación de imágenes y modelos de lenguaje grandes (multimodales). Para evaluar el potencial personalizado de los MLLMs, presentamos un banco de pruebas llamado P-Bench, que abarca varios tipos de preguntas con diferentes niveles de dificultad. Los experimentos demuestran una mejora sustancial en el rendimiento personalizado después de un ajuste fino con nuestro conjunto de datos curados.
English
Recent advancements in multimodal large language models (MLLMs) have demonstrated significant progress; however, these models exhibit a notable limitation, which we refer to as "face blindness". Specifically, they can engage in general conversations but fail to conduct personalized dialogues targeting at specific individuals. This deficiency hinders the application of MLLMs in personalized settings, such as tailored visual assistants on mobile devices, or domestic robots that need to recognize members of the family. In this paper, we introduce Personalized Visual Instruction Tuning (PVIT), a novel data curation and training framework designed to enable MLLMs to identify target individuals within an image and engage in personalized and coherent dialogues. Our approach involves the development of a sophisticated pipeline that autonomously generates training data containing personalized conversations. This pipeline leverages the capabilities of various visual experts, image generation models, and (multi-modal) large language models. To evaluate the personalized potential of MLLMs, we present a benchmark called P-Bench, which encompasses various question types with different levels of difficulty. The experiments demonstrate a substantial personalized performance enhancement after fine-tuning with our curated dataset.

Summary

AI-Generated Summary

PDF712November 16, 2024