ChatPaper.aiChatPaper

VisualCloze: Um Framework Universal de Geração de Imagens via Aprendizado Visual em Contexto

VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning

April 10, 2025
Autores: Zhong-Yu Li, Ruoyi Du, Juncheng Yan, Le Zhuo, Zhen Li, Peng Gao, Zhanyu Ma, Ming-Ming Cheng
cs.AI

Resumo

Os recentes avanços nos modelos de difusão têm impulsionado significativamente diversas tarefas de geração de imagens. No entanto, a abordagem predominante atual ainda se concentra na construção de modelos específicos para cada tarefa, o que limita a eficiência ao atender a uma ampla gama de necessidades diferentes. Embora os modelos universais tentem superar essa limitação, eles enfrentam desafios críticos, incluindo instruções de tarefas generalizáveis, distribuições de tarefas apropriadas e um design arquitetônico unificado. Para enfrentar esses desafios, propomos o VisualCloze, um framework universal de geração de imagens, que suporta uma ampla variedade de tarefas dentro do domínio, generalização para tarefas não vistas, unificação inédita de múltiplas tarefas e geração reversa. Diferentemente dos métodos existentes que dependem de instruções de tarefas baseadas em linguagem, levando a ambiguidades e fraca generalização, integramos o aprendizado visual em contexto, permitindo que os modelos identifiquem tarefas a partir de demonstrações visuais. Enquanto isso, a esparsidade inerente das distribuições de tarefas visuais dificulta a aprendizagem de conhecimento transferível entre tarefas. Para isso, introduzimos o Graph200K, um conjunto de dados estruturado em grafos que estabelece várias tarefas inter-relacionadas, aumentando a densidade de tarefas e o conhecimento transferível. Além disso, descobrimos que nossa formulação unificada de geração de imagens compartilha um objetivo consistente com o preenchimento de imagens, permitindo-nos aproveitar os fortes priors generativos de modelos pré-treinados de preenchimento sem modificar as arquiteturas.
English
Recent progress in diffusion models significantly advances various image generation tasks. However, the current mainstream approach remains focused on building task-specific models, which have limited efficiency when supporting a wide range of different needs. While universal models attempt to address this limitation, they face critical challenges, including generalizable task instruction, appropriate task distributions, and unified architectural design. To tackle these challenges, we propose VisualCloze, a universal image generation framework, which supports a wide range of in-domain tasks, generalization to unseen ones, unseen unification of multiple tasks, and reverse generation. Unlike existing methods that rely on language-based task instruction, leading to task ambiguity and weak generalization, we integrate visual in-context learning, allowing models to identify tasks from visual demonstrations. Meanwhile, the inherent sparsity of visual task distributions hampers the learning of transferable knowledge across tasks. To this end, we introduce Graph200K, a graph-structured dataset that establishes various interrelated tasks, enhancing task density and transferable knowledge. Furthermore, we uncover that our unified image generation formulation shared a consistent objective with image infilling, enabling us to leverage the strong generative priors of pre-trained infilling models without modifying the architectures.

Summary

AI-Generated Summary

PDF463April 11, 2025