ChatPaper.aiChatPaper

Generar Cualquier Cosa en Cualquier Lugar en Cualquier Escena

Generate Anything Anywhere in Any Scene

June 29, 2023
Autores: Yuheng Li, Haotian Liu, Yangming Wen, Yong Jae Lee
cs.AI

Resumen

Los modelos de difusión de texto a imagen han atraído un interés considerable debido a su amplia aplicabilidad en diversos campos. Sin embargo, persisten desafíos en la creación de modelos controlables para la generación de objetos personalizados. En este artículo, primero identificamos los problemas de entrelazamiento en los modelos generativos personalizados existentes, y luego proponemos una estrategia de entrenamiento de aumento de datos sencilla y eficiente que guía al modelo de difusión a centrarse únicamente en la identidad del objeto. Al insertar las capas adaptadoras plug-and-play de un modelo de difusión controlable preentrenado, nuestro modelo adquiere la capacidad de controlar la ubicación y el tamaño de cada objeto personalizado generado. Durante la inferencia, proponemos una técnica de muestreo guiado regionalmente para mantener la calidad y fidelidad de las imágenes generadas. Nuestro método logra una fidelidad comparable o superior para objetos personalizados, resultando en un modelo de difusión de texto a imagen robusto, versátil y controlable capaz de generar imágenes realistas y personalizadas. Nuestro enfoque demuestra un potencial significativo para diversas aplicaciones, como las del arte, el entretenimiento y el diseño publicitario.
English
Text-to-image diffusion models have attracted considerable interest due to their wide applicability across diverse fields. However, challenges persist in creating controllable models for personalized object generation. In this paper, we first identify the entanglement issues in existing personalized generative models, and then propose a straightforward and efficient data augmentation training strategy that guides the diffusion model to focus solely on object identity. By inserting the plug-and-play adapter layers from a pre-trained controllable diffusion model, our model obtains the ability to control the location and size of each generated personalized object. During inference, we propose a regionally-guided sampling technique to maintain the quality and fidelity of the generated images. Our method achieves comparable or superior fidelity for personalized objects, yielding a robust, versatile, and controllable text-to-image diffusion model that is capable of generating realistic and personalized images. Our approach demonstrates significant potential for various applications, such as those in art, entertainment, and advertising design.
PDF223December 15, 2024