VisualCloze: 시각적 인-컨텍스트 학습을 통한 범용 이미지 생성 프레임워크
VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning
April 10, 2025
저자: Zhong-Yu Li, Ruoyi Du, Juncheng Yan, Le Zhuo, Zhen Li, Peng Gao, Zhanyu Ma, Ming-Ming Cheng
cs.AI
초록
최근 확산 모델의 발전은 다양한 이미지 생성 작업을 크게 진전시켰습니다. 그러나 현재 주류 접근 방식은 여전히 특정 작업에 특화된 모델 구축에 초점을 맞추고 있어, 다양한 요구를 지원하는 데 있어 효율성이 제한적입니다. 범용 모델은 이러한 한계를 해결하려고 시도하지만, 일반화 가능한 작업 지시, 적절한 작업 분포, 통합된 아키텍처 설계 등 중요한 과제에 직면해 있습니다. 이러한 과제를 해결하기 위해, 우리는 VisualCloze라는 범용 이미지 생성 프레임워크를 제안합니다. 이 프레임워크는 다양한 도메인 내 작업을 지원하고, 보이지 않는 작업으로의 일반화, 여러 작업의 통합, 역생성 등을 가능하게 합니다. 기존의 언어 기반 작업 지시에 의존하여 작업 모호성과 약한 일반화를 초래하는 방법과 달리, 우리는 시각적 문맥 학습을 통합하여 모델이 시각적 데모에서 작업을 식별할 수 있도록 합니다. 한편, 시각적 작업 분포의 고유한 희소성은 작업 간 전이 가능한 지식 학습을 방해합니다. 이를 위해, 우리는 다양한 상호 연관된 작업을 설정하여 작업 밀도와 전이 가능한 지식을 향상시키는 그래프 구조 데이터셋인 Graph200K를 소개합니다. 더 나아가, 우리의 통합 이미지 생성 공식이 이미지 인필링과 일관된 목표를 공유한다는 점을 발견하여, 아키텍처를 수정하지 않고도 사전 훈련된 인필링 모델의 강력한 생성 사전 지식을 활용할 수 있게 되었습니다.
English
Recent progress in diffusion models significantly advances various image
generation tasks. However, the current mainstream approach remains focused on
building task-specific models, which have limited efficiency when supporting a
wide range of different needs. While universal models attempt to address this
limitation, they face critical challenges, including generalizable task
instruction, appropriate task distributions, and unified architectural design.
To tackle these challenges, we propose VisualCloze, a universal image
generation framework, which supports a wide range of in-domain tasks,
generalization to unseen ones, unseen unification of multiple tasks, and
reverse generation. Unlike existing methods that rely on language-based task
instruction, leading to task ambiguity and weak generalization, we integrate
visual in-context learning, allowing models to identify tasks from visual
demonstrations. Meanwhile, the inherent sparsity of visual task distributions
hampers the learning of transferable knowledge across tasks. To this end, we
introduce Graph200K, a graph-structured dataset that establishes various
interrelated tasks, enhancing task density and transferable knowledge.
Furthermore, we uncover that our unified image generation formulation shared a
consistent objective with image infilling, enabling us to leverage the strong
generative priors of pre-trained infilling models without modifying the
architectures.Summary
AI-Generated Summary