Gepersonaliseerde Visuele Instructie Aanpassing
Personalized Visual Instruction Tuning
October 9, 2024
Auteurs: Renjie Pi, Jianshu Zhang, Tianyang Han, Jipeng Zhang, Rui Pan, Tong Zhang
cs.AI
Samenvatting
Recente ontwikkelingen in multimodale grote taalmodellen (MLLM's) hebben aanzienlijke vooruitgang aangetoond; echter vertonen deze modellen een opmerkelijke beperking, die we "gezichtsblindheid" noemen. Specifiek kunnen ze deelnemen aan algemene gesprekken maar falen ze in het voeren van gepersonaliseerde dialogen gericht op specifieke individuen. Deze tekortkoming belemmert de toepassing van MLLM's in gepersonaliseerde omgevingen, zoals op maat gemaakte visuele assistenten op mobiele apparaten, of huishoudelijke robots die leden van het gezin moeten herkennen. In dit artikel introduceren we Personalized Visual Instruction Tuning (PVIT), een nieuw gegevenscuratie- en trainingskader dat is ontworpen om MLLM's in staat te stellen doelindividuen binnen een afbeelding te identificeren en deel te nemen aan gepersonaliseerde en coherente dialogen. Onze aanpak omvat de ontwikkeling van een geavanceerde pijplijn die autonoom trainingsgegevens genereert met gepersonaliseerde gesprekken. Deze pijplijn maakt gebruik van de mogelijkheden van diverse visuele experts, beeldgeneratiemodellen en (multimodale) grote taalmodellen. Om het gepersonaliseerde potentieel van MLLM's te evalueren, presenteren we een benchmark genaamd P-Bench, die verschillende soorten vragen met verschillende moeilijkheidsgraden omvat. De experimenten tonen een aanzienlijke verbetering in gepersonaliseerde prestaties na fijnafstemming met onze samengestelde dataset.
English
Recent advancements in multimodal large language models (MLLMs) have
demonstrated significant progress; however, these models exhibit a notable
limitation, which we refer to as "face blindness". Specifically, they can
engage in general conversations but fail to conduct personalized dialogues
targeting at specific individuals. This deficiency hinders the application of
MLLMs in personalized settings, such as tailored visual assistants on mobile
devices, or domestic robots that need to recognize members of the family. In
this paper, we introduce Personalized Visual Instruction Tuning (PVIT), a novel
data curation and training framework designed to enable MLLMs to identify
target individuals within an image and engage in personalized and coherent
dialogues. Our approach involves the development of a sophisticated pipeline
that autonomously generates training data containing personalized
conversations. This pipeline leverages the capabilities of various visual
experts, image generation models, and (multi-modal) large language models. To
evaluate the personalized potential of MLLMs, we present a benchmark called
P-Bench, which encompasses various question types with different levels of
difficulty. The experiments demonstrate a substantial personalized performance
enhancement after fine-tuning with our curated dataset.Summary
AI-Generated Summary