ChatPaper.aiChatPaper

Context Diffusion: Geração de Imagens com Consciência de Contexto

Context Diffusion: In-Context Aware Image Generation

December 6, 2023
Autores: Ivona Najdenkoska, Animesh Sinha, Abhimanyu Dubey, Dhruv Mahajan, Vignesh Ramanathan, Filip Radenovic
cs.AI

Resumo

Propomos o Context Diffusion, um framework baseado em difusão que permite que modelos de geração de imagens aprendam a partir de exemplos visuais apresentados em contexto. Trabalhos recentes abordam esse aprendizado em contexto para geração de imagens, onde uma imagem de consulta é fornecida juntamente com exemplos de contexto e prompts de texto. No entanto, a qualidade e a fidelidade das imagens geradas se deterioram quando o prompt não está presente, demonstrando que esses modelos não são capazes de aprender verdadeiramente com o contexto visual. Para resolver isso, propomos um novo framework que separa a codificação do contexto visual e a preservação da estrutura das imagens de consulta. Isso resulta na capacidade de aprender tanto com o contexto visual e prompts de texto, quanto com apenas um deles. Além disso, capacitamos nosso modelo a lidar com configurações de poucos exemplos (few-shot), para abordar efetivamente diversos cenários de aprendizado em contexto. Nossos experimentos e estudo com usuários demonstram que o Context Diffusion se destaca tanto em tarefas dentro do domínio quanto fora dele, resultando em uma melhoria geral na qualidade e fidelidade das imagens em comparação com modelos concorrentes.
English
We propose Context Diffusion, a diffusion-based framework that enables image generation models to learn from visual examples presented in context. Recent work tackles such in-context learning for image generation, where a query image is provided alongside context examples and text prompts. However, the quality and fidelity of the generated images deteriorate when the prompt is not present, demonstrating that these models are unable to truly learn from the visual context. To address this, we propose a novel framework that separates the encoding of the visual context and preserving the structure of the query images. This results in the ability to learn from the visual context and text prompts, but also from either one of them. Furthermore, we enable our model to handle few-shot settings, to effectively address diverse in-context learning scenarios. Our experiments and user study demonstrate that Context Diffusion excels in both in-domain and out-of-domain tasks, resulting in an overall enhancement in image quality and fidelity compared to counterpart models.
PDF160December 15, 2024