Optimisation personnalisée des instructions visuelles
Personalized Visual Instruction Tuning
October 9, 2024
Auteurs: Renjie Pi, Jianshu Zhang, Tianyang Han, Jipeng Zhang, Rui Pan, Tong Zhang
cs.AI
Résumé
Les récentes avancées dans les grands modèles de langage multimodaux (MLLM) ont démontré des progrès significatifs ; cependant, ces modèles présentent une limitation notable que nous appelons "aveuglement aux visages". Plus précisément, ils peuvent participer à des conversations générales mais échouent à mener des dialogues personnalisés ciblant des individus spécifiques. Cette lacune entrave l'application des MLLMs dans des contextes personnalisés, tels que des assistants visuels adaptés sur des appareils mobiles ou des robots domestiques devant reconnaître les membres de la famille. Dans cet article, nous présentons Personalized Visual Instruction Tuning (PVIT), un nouveau cadre de curation de données et d'entraînement conçu pour permettre aux MLLMs d'identifier des individus cibles dans une image et de participer à des dialogues personnalisés et cohérents. Notre approche implique le développement d'un pipeline sophistiqué qui génère de manière autonome des données d'entraînement contenant des conversations personnalisées. Ce pipeline tire parti des capacités de divers experts visuels, de modèles de génération d'images et de grands modèles de langage (multimodaux). Pour évaluer le potentiel personnalisé des MLLMs, nous présentons une référence appelée P-Bench, qui englobe divers types de questions avec différents niveaux de difficulté. Les expériences démontrent une amélioration substantielle des performances personnalisées après un ajustement fin avec notre ensemble de données élaboré.
English
Recent advancements in multimodal large language models (MLLMs) have
demonstrated significant progress; however, these models exhibit a notable
limitation, which we refer to as "face blindness". Specifically, they can
engage in general conversations but fail to conduct personalized dialogues
targeting at specific individuals. This deficiency hinders the application of
MLLMs in personalized settings, such as tailored visual assistants on mobile
devices, or domestic robots that need to recognize members of the family. In
this paper, we introduce Personalized Visual Instruction Tuning (PVIT), a novel
data curation and training framework designed to enable MLLMs to identify
target individuals within an image and engage in personalized and coherent
dialogues. Our approach involves the development of a sophisticated pipeline
that autonomously generates training data containing personalized
conversations. This pipeline leverages the capabilities of various visual
experts, image generation models, and (multi-modal) large language models. To
evaluate the personalized potential of MLLMs, we present a benchmark called
P-Bench, which encompasses various question types with different levels of
difficulty. The experiments demonstrate a substantial personalized performance
enhancement after fine-tuning with our curated dataset.Summary
AI-Generated Summary