ChatPaper.aiChatPaper

CoMat: Alineación del Modelo de Difusión de Texto a Imagen con la Correspondencia de Conceptos de Imagen a Texto

CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching

April 4, 2024
Autores: Dongzhi Jiang, Guanglu Song, Xiaoshi Wu, Renrui Zhang, Dazhong Shen, Zhuofan Zong, Yu Liu, Hongsheng Li
cs.AI

Resumen

Los modelos de difusión han demostrado un gran éxito en el campo de la generación de imágenes a partir de texto. Sin embargo, mitigar la desalineación entre las indicaciones de texto y las imágenes sigue siendo un desafío. La razón fundamental detrás de esta desalineación no ha sido investigada exhaustivamente. Observamos que la desalineación es causada por una activación inadecuada de la atención en los tokens. Además, atribuimos este fenómeno a la utilización insuficiente de la condición por parte del modelo de difusión, lo cual es causado por su paradigma de entrenamiento. Para abordar este problema, proponemos CoMat, una estrategia de ajuste fino de modelos de difusión de extremo a extremo con un mecanismo de coincidencia de conceptos de imagen a texto. Utilizamos un modelo de generación de subtítulos de imágenes para medir la alineación entre imagen y texto y guiar al modelo de difusión a revisar los tokens ignorados. También se propone un módulo de concentración de atributos novedoso para abordar el problema de vinculación de atributos. Sin utilizar datos de imágenes o preferencias humanas, empleamos solo 20K indicaciones de texto para ajustar SDXL y obtener CoMat-SDXL. Experimentos extensivos muestran que CoMat-SDXL supera significativamente al modelo base SDXL en dos benchmarks de alineación de texto a imagen y logra un rendimiento de vanguardia.
English
Diffusion models have demonstrated great success in the field of text-to-image generation. However, alleviating the misalignment between the text prompts and images is still challenging. The root reason behind the misalignment has not been extensively investigated. We observe that the misalignment is caused by inadequate token attention activation. We further attribute this phenomenon to the diffusion model's insufficient condition utilization, which is caused by its training paradigm. To address the issue, we propose CoMat, an end-to-end diffusion model fine-tuning strategy with an image-to-text concept matching mechanism. We leverage an image captioning model to measure image-to-text alignment and guide the diffusion model to revisit ignored tokens. A novel attribute concentration module is also proposed to address the attribute binding problem. Without any image or human preference data, we use only 20K text prompts to fine-tune SDXL to obtain CoMat-SDXL. Extensive experiments show that CoMat-SDXL significantly outperforms the baseline model SDXL in two text-to-image alignment benchmarks and achieves start-of-the-art performance.

Summary

AI-Generated Summary

PDF374December 15, 2024