VisualCloze: Een Universeel Framework voor Beeldgeneratie via Visueel In-Context Leren
VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning
April 10, 2025
Auteurs: Zhong-Yu Li, Ruoyi Du, Juncheng Yan, Le Zhuo, Zhen Li, Peng Gao, Zhanyu Ma, Ming-Ming Cheng
cs.AI
Samenvatting
Recente vooruitgang in diffusiemodellen heeft verschillende beeldgeneratietaken aanzienlijk verbeterd. De huidige mainstream aanpak blijft echter gericht op het bouwen van taakspecifieke modellen, die beperkte efficiëntie hebben bij het ondersteunen van een breed scala aan verschillende behoeften. Hoewel universele modellen proberen deze beperking aan te pakken, worden ze geconfronteerd met kritieke uitdagingen, waaronder generaliseerbare taakinstructies, geschikte taakverdelingen en een uniforme architectuurontwerp. Om deze uitdagingen aan te pakken, stellen we VisualCloze voor, een universeel beeldgeneratiekader dat een breed scala aan domeinspecifieke taken ondersteunt, generalisatie naar onbekende taken, de onbekende unificatie van meerdere taken en omgekeerde generatie mogelijk maakt. In tegenstelling tot bestaande methoden die vertrouwen op taalgebaseerde taakinstructies, wat leidt tot taakambiguïteit en zwakke generalisatie, integreren we visueel in-context leren, waardoor modellen taken kunnen identificeren aan de hand van visuele demonstraties. Tegelijkertijd belemmert de inherente schaarste van visuele taakverdelingen het leren van overdraagbare kennis tussen taken. Daarom introduceren we Graph200K, een grafisch gestructureerde dataset die verschillende onderling gerelateerde taken vaststelt, waardoor de taakdichtheid en overdraagbare kennis worden verbeterd. Bovendien ontdekken we dat onze uniforme beeldgeneratieformulering een consistent doel deelt met beeldinvulling, waardoor we de sterke generatieve prioriteiten van vooraf getrainde invullingsmodellen kunnen benutten zonder de architectuur aan te passen.
English
Recent progress in diffusion models significantly advances various image
generation tasks. However, the current mainstream approach remains focused on
building task-specific models, which have limited efficiency when supporting a
wide range of different needs. While universal models attempt to address this
limitation, they face critical challenges, including generalizable task
instruction, appropriate task distributions, and unified architectural design.
To tackle these challenges, we propose VisualCloze, a universal image
generation framework, which supports a wide range of in-domain tasks,
generalization to unseen ones, unseen unification of multiple tasks, and
reverse generation. Unlike existing methods that rely on language-based task
instruction, leading to task ambiguity and weak generalization, we integrate
visual in-context learning, allowing models to identify tasks from visual
demonstrations. Meanwhile, the inherent sparsity of visual task distributions
hampers the learning of transferable knowledge across tasks. To this end, we
introduce Graph200K, a graph-structured dataset that establishes various
interrelated tasks, enhancing task density and transferable knowledge.
Furthermore, we uncover that our unified image generation formulation shared a
consistent objective with image infilling, enabling us to leverage the strong
generative priors of pre-trained infilling models without modifying the
architectures.