YoChameleon: 개인 맞춤형 시각 및 언어 생성
YoChameleon: Personalized Vision and Language Generation
April 29, 2025
저자: Thao Nguyen, Krishna Kumar Singh, Jing Shi, Trung Bui, Yong Jae Lee, Yuheng Li
cs.AI
초록
대규모 멀티모달 모델(예: GPT-4, Gemini, Chameleon)은 수백만 명의 사용자를 보유한 강력한 도구로 진화했습니다. 그러나 이러한 모델들은 여전히 일반적인 모델이며, 특정 사용자 개념에 대한 개인화된 지식을 갖추지 못하고 있습니다. 기존 연구에서는 텍스트 생성을 위한 개인화를 탐구했지만, 이러한 방법들이 이미지 생성과 같은 새로운 모달리티에 어떻게 적용될 수 있는지는 명확하지 않습니다. 본 논문에서는 대규모 멀티모달 모델을 위한 개인화를 연구한 첫 번째 시도인 Yo'Chameleon을 소개합니다. 특정 개념의 3-5개의 이미지가 주어졌을 때, Yo'Chameleon은 소프트 프롬프트 튜닝을 활용하여 주제별 정보를 임베딩하여 (i) 해당 주제에 대한 질문에 답하고, (ii) 새로운 맥락에서 주제의 이미지를 생성하기 위해 픽셀 수준의 세부 사항을 재현합니다. Yo'Chameleon은 (i) 다중 모달리티 간의 성능 균형을 맞추기 위한 자체 프롬프팅 최적화 메커니즘과, (ii) 소량의 데이터 설정에서 이미지 품질을 향상시키기 위한 "소프트-포지티브" 이미지 생성 접근법을 통해 학습됩니다.
English
Large Multimodal Models (e.g., GPT-4, Gemini, Chameleon) have evolved into
powerful tools with millions of users. However, they remain generic models and
lack personalized knowledge of specific user concepts. Previous work has
explored personalization for text generation, yet it remains unclear how these
methods can be adapted to new modalities, such as image generation. In this
paper, we introduce Yo'Chameleon, the first attempt to study personalization
for large multimodal models. Given 3-5 images of a particular concept,
Yo'Chameleon leverages soft-prompt tuning to embed subject-specific information
to (i) answer questions about the subject and (ii) recreate pixel-level details
to produce images of the subject in new contexts. Yo'Chameleon is trained with
(i) a self-prompting optimization mechanism to balance performance across
multiple modalities, and (ii) a ``soft-positive" image generation approach to
enhance image quality in a few-shot setting.Summary
AI-Generated Summary