YoChameleon: Generación Personalizada de Visión y Lenguaje

Resumen

Los Modelos Multimodales de Gran Escala (por ejemplo, GPT-4, Gemini, Chameleon) han evolucionado hasta convertirse en herramientas potentes con millones de usuarios. Sin embargo, siguen siendo modelos genéricos y carecen de conocimiento personalizado sobre conceptos específicos de los usuarios. Trabajos anteriores han explorado la personalización para la generación de texto, pero aún no está claro cómo estos métodos pueden adaptarse a nuevas modalidades, como la generación de imágenes. En este artículo, presentamos Yo'Chameleon, el primer intento de estudiar la personalización para modelos multimodales de gran escala. Dadas 3-5 imágenes de un concepto particular, Yo'Chameleon aprovecha el ajuste de "soft-prompt" para incorporar información específica del sujeto con el fin de (i) responder preguntas sobre el sujeto y (ii) recrear detalles a nivel de píxeles para producir imágenes del sujeto en nuevos contextos. Yo'Chameleon se entrena con (i) un mecanismo de optimización de auto-prompting para equilibrar el rendimiento en múltiples modalidades, y (ii) un enfoque de generación de imágenes "soft-positive" para mejorar la calidad de las imágenes en un entorno de pocos ejemplos.

English

Large Multimodal Models (e.g., GPT-4, Gemini, Chameleon) have evolved into powerful tools with millions of users. However, they remain generic models and lack personalized knowledge of specific user concepts. Previous work has explored personalization for text generation, yet it remains unclear how these methods can be adapted to new modalities, such as image generation. In this paper, we introduce Yo'Chameleon, the first attempt to study personalization for large multimodal models. Given 3-5 images of a particular concept, Yo'Chameleon leverages soft-prompt tuning to embed subject-specific information to (i) answer questions about the subject and (ii) recreate pixel-level details to produce images of the subject in new contexts. Yo'Chameleon is trained with (i) a self-prompting optimization mechanism to balance performance across multiple modalities, and (ii) a ``soft-positive" image generation approach to enhance image quality in a few-shot setting.