ChatPaper.aiChatPaper

Diffusion Contextuelle : Génération d'Images Sensible au Contexte

Context Diffusion: In-Context Aware Image Generation

December 6, 2023
Auteurs: Ivona Najdenkoska, Animesh Sinha, Abhimanyu Dubey, Dhruv Mahajan, Vignesh Ramanathan, Filip Radenovic
cs.AI

Résumé

Nous proposons Context Diffusion, un cadre basé sur la diffusion qui permet aux modèles de génération d'images d'apprendre à partir d'exemples visuels présentés en contexte. Les travaux récents abordent cet apprentissage en contexte pour la génération d'images, où une image requête est fournie aux côtés d'exemples contextuels et de prompts textuels. Cependant, la qualité et la fidélité des images générées se détériorent lorsque le prompt est absent, démontrant que ces modèles sont incapables de véritablement apprendre du contexte visuel. Pour remédier à cela, nous proposons un cadre novateur qui sépare l'encodage du contexte visuel et la préservation de la structure des images requêtes. Cela permet d'apprendre à la fois du contexte visuel et des prompts textuels, mais aussi de l'un ou l'autre. De plus, nous permettons à notre modèle de gérer des configurations few-shot, afin de répondre efficacement à divers scénarios d'apprentissage en contexte. Nos expériences et étude utilisateur démontrent que Context Diffusion excelle dans les tâches intra-domaines et extra-domaines, entraînant une amélioration globale de la qualité et de la fidélité des images par rapport aux modèles concurrents.
English
We propose Context Diffusion, a diffusion-based framework that enables image generation models to learn from visual examples presented in context. Recent work tackles such in-context learning for image generation, where a query image is provided alongside context examples and text prompts. However, the quality and fidelity of the generated images deteriorate when the prompt is not present, demonstrating that these models are unable to truly learn from the visual context. To address this, we propose a novel framework that separates the encoding of the visual context and preserving the structure of the query images. This results in the ability to learn from the visual context and text prompts, but also from either one of them. Furthermore, we enable our model to handle few-shot settings, to effectively address diverse in-context learning scenarios. Our experiments and user study demonstrate that Context Diffusion excels in both in-domain and out-of-domain tasks, resulting in an overall enhancement in image quality and fidelity compared to counterpart models.
PDF160December 15, 2024