Ottimizzazione delle Istruzioni Visive Personalizzate
Personalized Visual Instruction Tuning
October 9, 2024
Autori: Renjie Pi, Jianshu Zhang, Tianyang Han, Jipeng Zhang, Rui Pan, Tong Zhang
cs.AI
Abstract
I recenti progressi nei modelli di linguaggio multimodali di grandi dimensioni (MLLM) hanno dimostrato significativi avanzamenti; tuttavia, tali modelli presentano una nota limitazione, che definiamo "cecità facciale". In particolare, essi sono in grado di sostenere conversazioni generiche ma falliscono nel condurre dialoghi personalizzati mirati a individui specifici. Questa carenza ostacola l'applicazione dei MLLM in contesti personalizzati, come assistenti visivi personalizzati su dispositivi mobili o robot domestici che devono riconoscere i membri della famiglia. In questo articolo, presentiamo Personalized Visual Instruction Tuning (PVIT), un nuovo framework di cura e addestramento dei dati progettato per consentire ai MLLM di identificare individui target all'interno di un'immagine e sostenere dialoghi personalizzati e coerenti. Il nostro approccio prevede lo sviluppo di un sofisticato processo che genera autonomamente dati di addestramento contenenti conversazioni personalizzate. Questo processo sfrutta le capacità di vari esperti visivi, modelli di generazione di immagini e modelli di linguaggio di grandi dimensioni (multimodali). Per valutare il potenziale personalizzato dei MLLM, presentiamo un benchmark chiamato P-Bench, che include vari tipi di domande con diversi livelli di difficoltà. Gli esperimenti dimostrano un notevole miglioramento delle prestazioni personalizzate dopo il fine-tuning con il nostro dataset curato.
English
Recent advancements in multimodal large language models (MLLMs) have
demonstrated significant progress; however, these models exhibit a notable
limitation, which we refer to as "face blindness". Specifically, they can
engage in general conversations but fail to conduct personalized dialogues
targeting at specific individuals. This deficiency hinders the application of
MLLMs in personalized settings, such as tailored visual assistants on mobile
devices, or domestic robots that need to recognize members of the family. In
this paper, we introduce Personalized Visual Instruction Tuning (PVIT), a novel
data curation and training framework designed to enable MLLMs to identify
target individuals within an image and engage in personalized and coherent
dialogues. Our approach involves the development of a sophisticated pipeline
that autonomously generates training data containing personalized
conversations. This pipeline leverages the capabilities of various visual
experts, image generation models, and (multi-modal) large language models. To
evaluate the personalized potential of MLLMs, we present a benchmark called
P-Bench, which encompasses various question types with different levels of
difficulty. The experiments demonstrate a substantial personalized performance
enhancement after fine-tuning with our curated dataset.