이미지 생성을 위한 다중 모달 표현 정렬: 텍스트-이미지 교차 제어는 생각보다 쉽습니다.
Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think
February 27, 2025
저자: Liang Chen, Shuai Bai, Wenhao Chai, Weichu Xie, Haozhe Zhao, Leon Vinci, Junyang Lin, Baobao Chang
cs.AI
초록
고급 텍스트-이미지 생성 분야는 강력한 텍스트 인코더인 CLIP와 T5와 Diffusion Transformer 백본을 통합하는 통합 프레임워크의 등장을 목격하고 있습니다. 추가 조건인 canny 및 깊이 맵과 같은 추가 조건으로 출력 이미지를 제어하는 노력이 있었지만, 임의의 텍스트-이미지 교차 제어를 위한 포괄적인 프레임워크는 아직 부족합니다. 이 간극은 특히 여러 이미지에서 개념이나 시각적 요소를 병합하려는 시도할 때 특히 뚜렷합니다. 이 간극을 줄이기 위해 우리는 대규모 다모달 모델(LMMs)이 이미지와 텍스트를 외부 확산 모델의 조건으로 작용할 수 있는 효과적인 공유 표현 공간을 제공한다는 것을 보여주는 예비 실험을 실시했습니다. 이 발견을 기반으로 우리는 임의의 텍스트-이미지 교차 제어를 위해 설계된 효율적이고 통합된 프레임워크인 Dream Engine을 제안합니다. SD3.5와 같은 강력한 텍스트-이미지 모델을 기반으로, 우리는 다양한 다모달 정보 인코더인 QwenVL을 통합하여 원래의 텍스트 전용 인코더를 대체합니다. 우리의 접근 방식은 공동 텍스트-이미지 정렬 및 다모달 교차 지시 조정으로 구성된 두 단계 교육 패러다임을 활용합니다. 우리의 실험은 이 교육 방법이 효과적임을 보여주며, GenEval 벤치마크에서 전체 점수 0.69를 달성하고 SD3.5와 FLUX와 같은 최첨단 텍스트-이미지 모델의 성능을 맞추는 것을 보여줍니다.
English
The field of advanced text-to-image generation is witnessing the emergence of
unified frameworks that integrate powerful text encoders, such as CLIP and T5,
with Diffusion Transformer backbones. Although there have been efforts to
control output images with additional conditions, like canny and depth map, a
comprehensive framework for arbitrary text-image interleaved control is still
lacking. This gap is especially evident when attempting to merge concepts or
visual elements from multiple images in the generation process. To mitigate the
gap, we conducted preliminary experiments showing that large multimodal models
(LMMs) offer an effective shared representation space, where image and text can
be well-aligned to serve as a condition for external diffusion models. Based on
this discovery, we propose Dream Engine, an efficient and unified framework
designed for arbitrary text-image interleaved control in image generation
models. Building on powerful text-to-image models like SD3.5, we replace the
original text-only encoders by incorporating versatile multimodal information
encoders such as QwenVL. Our approach utilizes a two-stage training paradigm,
consisting of joint text-image alignment and multimodal interleaved instruction
tuning. Our experiments demonstrate that this training method is effective,
achieving a 0.69 overall score on the GenEval benchmark, and matching the
performance of state-of-the-art text-to-image models like SD3.5 and FLUX.Summary
AI-Generated Summary