ChatPaper.aiChatPaper

Difusión Contextual: Generación de Imágenes Conscientes del Contexto

Context Diffusion: In-Context Aware Image Generation

December 6, 2023
Autores: Ivona Najdenkoska, Animesh Sinha, Abhimanyu Dubey, Dhruv Mahajan, Vignesh Ramanathan, Filip Radenovic
cs.AI

Resumen

Proponemos Context Diffusion, un marco basado en difusión que permite a los modelos de generación de imágenes aprender a partir de ejemplos visuales presentados en contexto. Trabajos recientes abordan este aprendizaje en contexto para la generación de imágenes, donde se proporciona una imagen de consulta junto con ejemplos de contexto y prompts de texto. Sin embargo, la calidad y fidelidad de las imágenes generadas se deterioran cuando el prompt no está presente, lo que demuestra que estos modelos no son capaces de aprender verdaderamente del contexto visual. Para abordar esto, proponemos un marco novedoso que separa la codificación del contexto visual y la preservación de la estructura de las imágenes de consulta. Esto resulta en la capacidad de aprender tanto del contexto visual como de los prompts de texto, pero también de cualquiera de ellos por separado. Además, habilitamos a nuestro modelo para manejar configuraciones de pocos ejemplos, abordando efectivamente diversos escenarios de aprendizaje en contexto. Nuestros experimentos y estudio de usuarios demuestran que Context Diffusion sobresale tanto en tareas dentro del dominio como fuera de él, resultando en una mejora general en la calidad y fidelidad de las imágenes en comparación con modelos equivalentes.
English
We propose Context Diffusion, a diffusion-based framework that enables image generation models to learn from visual examples presented in context. Recent work tackles such in-context learning for image generation, where a query image is provided alongside context examples and text prompts. However, the quality and fidelity of the generated images deteriorate when the prompt is not present, demonstrating that these models are unable to truly learn from the visual context. To address this, we propose a novel framework that separates the encoding of the visual context and preserving the structure of the query images. This results in the ability to learn from the visual context and text prompts, but also from either one of them. Furthermore, we enable our model to handle few-shot settings, to effectively address diverse in-context learning scenarios. Our experiments and user study demonstrate that Context Diffusion excels in both in-domain and out-of-domain tasks, resulting in an overall enhancement in image quality and fidelity compared to counterpart models.
PDF160December 15, 2024