개인화된 시각적 지시 조정
Personalized Visual Instruction Tuning
October 9, 2024
저자: Renjie Pi, Jianshu Zhang, Tianyang Han, Jipeng Zhang, Rui Pan, Tong Zhang
cs.AI
초록
최근에 발전한 다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 상당한 진전을 보여주었지만, 이러한 모델들은 "얼굴 맹인"이라고 지칭하는 주목할 만한 한계를 보여줍니다. 구체적으로, 이러한 모델들은 일반 대화에 참여할 수 있지만, 특정 개인을 대상으로 하는 맞춤 대화를 수행하지 못합니다. 이 결핍은 MLLMs를 맞춤형 시나리오에 적용하는 데 제약을 줍니다. 예를 들어, 모바일 장치에서 맞춤형 시각적 보조기나 가족 구성원을 인식해야 하는 가정용 로봇과 같은 상황에서 사용될 수 있습니다. 본 논문에서는 개인화된 시각적 지시 튜닝(Personalized Visual Instruction Tuning, PVIT)이라는 새로운 데이터 정제 및 훈련 프레임워크를 소개합니다. 이 프레임워크는 MLLMs가 이미지 내의 대상 개인을 식별하고 개인화되고 일관된 대화를 수행할 수 있도록 설계되었습니다. 저희의 접근 방식은 다양한 시각 전문가, 이미지 생성 모델 및 (다중 모달) 대형 언어 모델의 능력을 활용하여 맞춤형 대화를 포함하는 훈련 데이터를 자동으로 생성하는 정교한 파이프라인의 개발을 포함합니다. MLLMs의 개인화 가능성을 평가하기 위해 P-Bench라는 벤치마크를 제시하며, 이는 다양한 난이도의 질문 유형을 포함합니다. 실험 결과는 저희가 정제한 데이터셋으로 미세 조정한 후 상당한 개인화 성능 향상을 보여줍니다.
English
Recent advancements in multimodal large language models (MLLMs) have
demonstrated significant progress; however, these models exhibit a notable
limitation, which we refer to as "face blindness". Specifically, they can
engage in general conversations but fail to conduct personalized dialogues
targeting at specific individuals. This deficiency hinders the application of
MLLMs in personalized settings, such as tailored visual assistants on mobile
devices, or domestic robots that need to recognize members of the family. In
this paper, we introduce Personalized Visual Instruction Tuning (PVIT), a novel
data curation and training framework designed to enable MLLMs to identify
target individuals within an image and engage in personalized and coherent
dialogues. Our approach involves the development of a sophisticated pipeline
that autonomously generates training data containing personalized
conversations. This pipeline leverages the capabilities of various visual
experts, image generation models, and (multi-modal) large language models. To
evaluate the personalized potential of MLLMs, we present a benchmark called
P-Bench, which encompasses various question types with different levels of
difficulty. The experiments demonstrate a substantial personalized performance
enhancement after fine-tuning with our curated dataset.Summary
AI-Generated Summary