YoChameleon: Generación Personalizada de Visión y Lenguaje
YoChameleon: Personalized Vision and Language Generation
April 29, 2025
Autores: Thao Nguyen, Krishna Kumar Singh, Jing Shi, Trung Bui, Yong Jae Lee, Yuheng Li
cs.AI
Resumen
Los Modelos Multimodales de Gran Escala (por ejemplo, GPT-4, Gemini, Chameleon) han evolucionado hasta convertirse en herramientas potentes con millones de usuarios. Sin embargo, siguen siendo modelos genéricos y carecen de conocimiento personalizado sobre conceptos específicos de los usuarios. Trabajos anteriores han explorado la personalización para la generación de texto, pero aún no está claro cómo estos métodos pueden adaptarse a nuevas modalidades, como la generación de imágenes. En este artículo, presentamos Yo'Chameleon, el primer intento de estudiar la personalización para modelos multimodales de gran escala. Dadas 3-5 imágenes de un concepto particular, Yo'Chameleon aprovecha el ajuste de "soft-prompt" para incorporar información específica del sujeto con el fin de (i) responder preguntas sobre el sujeto y (ii) recrear detalles a nivel de píxeles para producir imágenes del sujeto en nuevos contextos. Yo'Chameleon se entrena con (i) un mecanismo de optimización de auto-prompting para equilibrar el rendimiento en múltiples modalidades, y (ii) un enfoque de generación de imágenes "soft-positive" para mejorar la calidad de las imágenes en un entorno de pocos ejemplos.
English
Large Multimodal Models (e.g., GPT-4, Gemini, Chameleon) have evolved into
powerful tools with millions of users. However, they remain generic models and
lack personalized knowledge of specific user concepts. Previous work has
explored personalization for text generation, yet it remains unclear how these
methods can be adapted to new modalities, such as image generation. In this
paper, we introduce Yo'Chameleon, the first attempt to study personalization
for large multimodal models. Given 3-5 images of a particular concept,
Yo'Chameleon leverages soft-prompt tuning to embed subject-specific information
to (i) answer questions about the subject and (ii) recreate pixel-level details
to produce images of the subject in new contexts. Yo'Chameleon is trained with
(i) a self-prompting optimization mechanism to balance performance across
multiple modalities, and (ii) a ``soft-positive" image generation approach to
enhance image quality in a few-shot setting.Summary
AI-Generated Summary