ChatPaper.aiChatPaper

Context Diffusion: Generazione di Immagini Consapevole del Contesto

Context Diffusion: In-Context Aware Image Generation

December 6, 2023
Autori: Ivona Najdenkoska, Animesh Sinha, Abhimanyu Dubey, Dhruv Mahajan, Vignesh Ramanathan, Filip Radenovic
cs.AI

Abstract

Proponiamo Context Diffusion, un framework basato sulla diffusione che consente ai modelli di generazione di immagini di apprendere da esempi visivi presentati in contesto. Recenti lavori affrontano tale apprendimento in contesto per la generazione di immagini, in cui un'immagine query viene fornita insieme a esempi contestuali e prompt testuali. Tuttavia, la qualità e la fedeltà delle immagini generate si deteriorano quando il prompt non è presente, dimostrando che questi modelli non sono in grado di apprendere veramente dal contesto visivo. Per risolvere questo problema, proponiamo un nuovo framework che separa la codifica del contesto visivo e la preservazione della struttura delle immagini query. Ciò si traduce nella capacità di apprendere sia dal contesto visivo che dai prompt testuali, ma anche da uno solo di essi. Inoltre, consentiamo al nostro modello di gestire impostazioni few-shot, per affrontare efficacemente diversi scenari di apprendimento in contesto. I nostri esperimenti e lo studio con utenti dimostrano che Context Diffusion eccelle sia in compiti in-dominio che out-of-dominio, portando a un miglioramento complessivo nella qualità e nella fedeltà delle immagini rispetto ai modelli concorrenti.
English
We propose Context Diffusion, a diffusion-based framework that enables image generation models to learn from visual examples presented in context. Recent work tackles such in-context learning for image generation, where a query image is provided alongside context examples and text prompts. However, the quality and fidelity of the generated images deteriorate when the prompt is not present, demonstrating that these models are unable to truly learn from the visual context. To address this, we propose a novel framework that separates the encoding of the visual context and preserving the structure of the query images. This results in the ability to learn from the visual context and text prompts, but also from either one of them. Furthermore, we enable our model to handle few-shot settings, to effectively address diverse in-context learning scenarios. Our experiments and user study demonstrate that Context Diffusion excels in both in-domain and out-of-domain tasks, resulting in an overall enhancement in image quality and fidelity compared to counterpart models.
PDF160December 15, 2024