ChatPaper.aiChatPaper

Individuelle visuelle Anweisungsabstimmung

Personalized Visual Instruction Tuning

October 9, 2024
Autoren: Renjie Pi, Jianshu Zhang, Tianyang Han, Jipeng Zhang, Rui Pan, Tong Zhang
cs.AI

Zusammenfassung

In jüngster Zeit haben Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) signifikante Fortschritte gezeigt; jedoch weisen diese Modelle eine bemerkenswerte Einschränkung auf, die wir als "Gesichtsblindheit" bezeichnen. Speziell können sie zwar allgemeine Gespräche führen, scheitern jedoch daran, personalisierte Dialoge mit bestimmten Personen zu führen. Diese Defizienz behindert die Anwendung von MLLMs in personalisierten Umgebungen, wie maßgeschneiderten visuellen Assistenten auf mobilen Geräten oder Haushaltsrobotern, die Familienmitglieder erkennen müssen. In diesem Paper stellen wir Personalized Visual Instruction Tuning (PVIT) vor, ein neuartiges Datenkuratierungs- und Schulungsframework, das entwickelt wurde, um MLLMs zu befähigen, Zielpersonen in einem Bild zu identifizieren und personalisierte und kohärente Dialoge zu führen. Unser Ansatz beinhaltet die Entwicklung einer ausgeklügelten Pipeline, die autonom Schulungsdaten mit personalisierten Gesprächen generiert. Diese Pipeline nutzt die Fähigkeiten verschiedener visueller Experten, Bildgenerierungsmodelle und (multimodale) große Sprachmodelle. Zur Bewertung des personalisierten Potenzials von MLLMs präsentieren wir einen Benchmark namens P-Bench, der verschiedene Fragetypen mit unterschiedlichen Schwierigkeitsgraden umfasst. Die Experimente zeigen eine deutliche Verbesserung der personalisierten Leistung nach Feinabstimmung mit unserem kuratierten Datensatz.
English
Recent advancements in multimodal large language models (MLLMs) have demonstrated significant progress; however, these models exhibit a notable limitation, which we refer to as "face blindness". Specifically, they can engage in general conversations but fail to conduct personalized dialogues targeting at specific individuals. This deficiency hinders the application of MLLMs in personalized settings, such as tailored visual assistants on mobile devices, or domestic robots that need to recognize members of the family. In this paper, we introduce Personalized Visual Instruction Tuning (PVIT), a novel data curation and training framework designed to enable MLLMs to identify target individuals within an image and engage in personalized and coherent dialogues. Our approach involves the development of a sophisticated pipeline that autonomously generates training data containing personalized conversations. This pipeline leverages the capabilities of various visual experts, image generation models, and (multi-modal) large language models. To evaluate the personalized potential of MLLMs, we present a benchmark called P-Bench, which encompasses various question types with different levels of difficulty. The experiments demonstrate a substantial personalized performance enhancement after fine-tuning with our curated dataset.

Summary

AI-Generated Summary

PDF712November 16, 2024