ChatPaper.aiChatPaper

Subject-Diffusion: Generación de imágenes personalizadas a partir de texto en dominios abiertos sin ajuste fino en tiempo de prueba

Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning

July 21, 2023
Autores: Jian Ma, Junhao Liang, Chen Chen, Haonan Lu
cs.AI

Resumen

Los recientes avances en la generación de imágenes personalizadas utilizando modelos de difusión han sido significativos. Sin embargo, el desarrollo en el área de generación de imágenes personalizadas en dominios abiertos y sin ajuste fino está avanzando de manera bastante lenta. En este artículo, proponemos Subject-Diffusion, un novedoso modelo de generación de imágenes personalizadas en dominios abiertos que, además de no requerir ajuste fino en tiempo de prueba, también solo necesita una única imagen de referencia para respaldar la generación personalizada de uno o varios sujetos en cualquier dominio. En primer lugar, construimos una herramienta automática de etiquetado de datos y utilizamos el conjunto de datos LAION-Aesthetics para crear un conjunto de datos a gran escala que consta de 76 millones de imágenes junto con sus correspondientes cuadros delimitadores de detección de sujetos, máscaras de segmentación y descripciones textuales. En segundo lugar, diseñamos un nuevo marco unificado que combina la semántica de texto e imagen mediante la incorporación de controles de ubicación aproximada y de imagen de referencia detallada para maximizar la fidelidad del sujeto y la generalización. Además, también adoptamos un mecanismo de control de atención para respaldar la generación de múltiples sujetos. Los resultados cualitativos y cuantitativos extensivos demuestran que nuestro método supera a otros marcos de última generación en la generación de imágenes personalizadas individuales, múltiples y humanas. Consulte nuestra {página del proyecto} en https://oppo-mente-lab.github.io/subject_diffusion/.
English
Recent progress in personalized image generation using diffusion models has been significant. However, development in the area of open-domain and non-fine-tuning personalized image generation is proceeding rather slowly. In this paper, we propose Subject-Diffusion, a novel open-domain personalized image generation model that, in addition to not requiring test-time fine-tuning, also only requires a single reference image to support personalized generation of single- or multi-subject in any domain. Firstly, we construct an automatic data labeling tool and use the LAION-Aesthetics dataset to construct a large-scale dataset consisting of 76M images and their corresponding subject detection bounding boxes, segmentation masks and text descriptions. Secondly, we design a new unified framework that combines text and image semantics by incorporating coarse location and fine-grained reference image control to maximize subject fidelity and generalization. Furthermore, we also adopt an attention control mechanism to support multi-subject generation. Extensive qualitative and quantitative results demonstrate that our method outperforms other SOTA frameworks in single, multiple, and human customized image generation. Please refer to our https://oppo-mente-lab.github.io/subject_diffusion/{project page}
PDF160December 15, 2024