ChatPaper.aiChatPaper

Настройка персонализированного визуального обучения

Personalized Visual Instruction Tuning

October 9, 2024
Авторы: Renjie Pi, Jianshu Zhang, Tianyang Han, Jipeng Zhang, Rui Pan, Tong Zhang
cs.AI

Аннотация

Недавние достижения в области мультимодальных крупных языковых моделей (MLLMs) продемонстрировали значительный прогресс; однако эти модели обладают заметным ограничением, которое мы называем "слепотой к лицам". Конкретно, они могут вести общие разговоры, но не могут проводить персонализированные диалоги, нацеленные на конкретных людей. Этот недостаток затрудняет применение MLLMs в персонализированных средах, таких как настроенные визуальные ассистенты на мобильных устройствах или домашние роботы, которые должны распознавать членов семьи. В данной статье мы представляем персонализированную настройку визуальных инструкций (PVIT), новую структуру кураторства данных и обучения, разработанную для того, чтобы позволить MLLMs идентифицировать целевых лиц на изображении и вести персонализированные и последовательные диалоги. Наш подход включает разработку сложного конвейера, который автономно генерирует обучающие данные, содержащие персонализированные разговоры. Этот конвейер использует возможности различных визуальных экспертов, моделей генерации изображений и (мультимодальных) крупных языковых моделей. Для оценки персонализированного потенциала MLLMs мы представляем бенчмарк под названием P-Bench, который включает различные типы вопросов с разными уровнями сложности. Эксперименты демонстрируют значительное улучшение персонализированной производительности после донастройки с нашим кураторским набором данных.
English
Recent advancements in multimodal large language models (MLLMs) have demonstrated significant progress; however, these models exhibit a notable limitation, which we refer to as "face blindness". Specifically, they can engage in general conversations but fail to conduct personalized dialogues targeting at specific individuals. This deficiency hinders the application of MLLMs in personalized settings, such as tailored visual assistants on mobile devices, or domestic robots that need to recognize members of the family. In this paper, we introduce Personalized Visual Instruction Tuning (PVIT), a novel data curation and training framework designed to enable MLLMs to identify target individuals within an image and engage in personalized and coherent dialogues. Our approach involves the development of a sophisticated pipeline that autonomously generates training data containing personalized conversations. This pipeline leverages the capabilities of various visual experts, image generation models, and (multi-modal) large language models. To evaluate the personalized potential of MLLMs, we present a benchmark called P-Bench, which encompasses various question types with different levels of difficulty. The experiments demonstrate a substantial personalized performance enhancement after fine-tuning with our curated dataset.

Summary

AI-Generated Summary

PDF712November 16, 2024