ChatPaper.aiChatPaper

VisualCloze : Un cadre universel de génération d'images via l'apprentissage visuel en contexte

VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning

April 10, 2025
Auteurs: Zhong-Yu Li, Ruoyi Du, Juncheng Yan, Le Zhuo, Zhen Li, Peng Gao, Zhanyu Ma, Ming-Ming Cheng
cs.AI

Résumé

Les récents progrès des modèles de diffusion ont considérablement fait avancer diverses tâches de génération d'images. Cependant, l'approche dominante actuelle reste centrée sur la construction de modèles spécifiques à une tâche, ce qui limite leur efficacité lorsqu'il s'agit de répondre à un large éventail de besoins différents. Bien que les modèles universels tentent de surmonter cette limitation, ils se heurtent à des défis critiques, notamment l'instruction généralisable des tâches, la distribution appropriée des tâches et la conception architecturale unifiée. Pour relever ces défis, nous proposons VisualCloze, un cadre universel de génération d'images, qui prend en charge une large gamme de tâches dans le domaine, la généralisation à des tâches non vues, l'unification inédite de multiples tâches et la génération inverse. Contrairement aux méthodes existantes qui s'appuient sur des instructions de tâches basées sur le langage, entraînant une ambiguïté des tâches et une faible généralisation, nous intégrons l'apprentissage visuel en contexte, permettant aux modèles d'identifier les tâches à partir de démonstrations visuelles. Par ailleurs, la sparsité inhérente des distributions de tâches visuelles entrave l'apprentissage de connaissances transférables entre les tâches. À cette fin, nous introduisons Graph200K, un ensemble de données structuré en graphe qui établit diverses tâches interreliées, augmentant la densité des tâches et les connaissances transférables. De plus, nous découvrons que notre formulation unifiée de génération d'images partage un objectif cohérent avec le remplissage d'images, nous permettant ainsi d'exploiter les forts a priori génératifs des modèles de remplissage pré-entraînés sans modifier les architectures.
English
Recent progress in diffusion models significantly advances various image generation tasks. However, the current mainstream approach remains focused on building task-specific models, which have limited efficiency when supporting a wide range of different needs. While universal models attempt to address this limitation, they face critical challenges, including generalizable task instruction, appropriate task distributions, and unified architectural design. To tackle these challenges, we propose VisualCloze, a universal image generation framework, which supports a wide range of in-domain tasks, generalization to unseen ones, unseen unification of multiple tasks, and reverse generation. Unlike existing methods that rely on language-based task instruction, leading to task ambiguity and weak generalization, we integrate visual in-context learning, allowing models to identify tasks from visual demonstrations. Meanwhile, the inherent sparsity of visual task distributions hampers the learning of transferable knowledge across tasks. To this end, we introduce Graph200K, a graph-structured dataset that establishes various interrelated tasks, enhancing task density and transferable knowledge. Furthermore, we uncover that our unified image generation formulation shared a consistent objective with image infilling, enabling us to leverage the strong generative priors of pre-trained infilling models without modifying the architectures.

Summary

AI-Generated Summary

PDF463April 11, 2025