VisualCloze: Универсальная структура для генерации изображений через визуальное обучение в контексте
VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning
April 10, 2025
Авторы: Zhong-Yu Li, Ruoyi Du, Juncheng Yan, Le Zhuo, Zhen Li, Peng Gao, Zhanyu Ma, Ming-Ming Cheng
cs.AI
Аннотация
Недавние достижения в области диффузионных моделей значительно продвинули различные задачи генерации изображений. Однако текущий основной подход по-прежнему сосредоточен на создании моделей, специфичных для конкретных задач, что ограничивает их эффективность при поддержке широкого спектра различных потребностей. Хотя универсальные модели пытаются устранить это ограничение, они сталкиваются с серьезными проблемами, включая обобщаемость инструкций для задач, подходящие распределения задач и унифицированный архитектурный дизайн. Для решения этих проблем мы предлагаем VisualCloze — универсальную структуру для генерации изображений, которая поддерживает широкий спектр задач в рамках одной области, обобщение на неизвестные задачи, объединение нескольких задач и обратную генерацию. В отличие от существующих методов, которые полагаются на текстовые инструкции для задач, что приводит к неоднозначности задач и слабому обобщению, мы интегрируем визуальное обучение в контексте, позволяя моделям определять задачи на основе визуальных демонстраций. В то же время присущая разреженность распределений визуальных задач затрудняет изучение переносимых знаний между задачами. Для этого мы представляем Graph200K — графовую структуру данных, которая устанавливает различные взаимосвязанные задачи, повышая плотность задач и переносимые знания. Кроме того, мы обнаружили, что наша унифицированная формулировка генерации изображений имеет общую цель с задачей восстановления изображений, что позволяет нам использовать сильные генеративные априорные знания предварительно обученных моделей восстановления без изменения их архитектур.
English
Recent progress in diffusion models significantly advances various image
generation tasks. However, the current mainstream approach remains focused on
building task-specific models, which have limited efficiency when supporting a
wide range of different needs. While universal models attempt to address this
limitation, they face critical challenges, including generalizable task
instruction, appropriate task distributions, and unified architectural design.
To tackle these challenges, we propose VisualCloze, a universal image
generation framework, which supports a wide range of in-domain tasks,
generalization to unseen ones, unseen unification of multiple tasks, and
reverse generation. Unlike existing methods that rely on language-based task
instruction, leading to task ambiguity and weak generalization, we integrate
visual in-context learning, allowing models to identify tasks from visual
demonstrations. Meanwhile, the inherent sparsity of visual task distributions
hampers the learning of transferable knowledge across tasks. To this end, we
introduce Graph200K, a graph-structured dataset that establishes various
interrelated tasks, enhancing task density and transferable knowledge.
Furthermore, we uncover that our unified image generation formulation shared a
consistent objective with image infilling, enabling us to leverage the strong
generative priors of pre-trained infilling models without modifying the
architectures.Summary
AI-Generated Summary