ChatPaper.aiChatPaper

DreamRenderer: 대규모 텍스트-이미지 모델에서 다중 인스턴스 속성 제어의 길들임

DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models

March 17, 2025
저자: Dewei Zhou, Mingwei Li, Zongxin Yang, Yi Yang
cs.AI

초록

깊이 맵(depth)과 캐니 에지(canny) 조건 기반 접근법과 같은 이미지 조건 생성 방법들은 정밀한 이미지 합성에서 뛰어난 능력을 보여주었습니다. 그러나 기존 모델들은 여전히 다중 인스턴스(또는 영역)의 내용을 정확하게 제어하는 데 어려움을 겪고 있습니다. FLUX나 3DIS와 같은 최첨단 모델들도 인스턴스 간 속성 누출과 같은 문제로 인해 사용자 제어가 제한됩니다. 이러한 문제를 해결하기 위해, 우리는 FLUX 모델을 기반으로 한 학습이 필요 없는 접근법인 DreamRenderer를 소개합니다. DreamRenderer는 사용자가 바운딩 박스나 마스크를 통해 각 인스턴스의 내용을 제어할 수 있도록 하면서도 전체적인 시각적 조화를 유지합니다. 우리는 두 가지 주요 혁신을 제안합니다: 1) 하드 텍스트 속성 바인딩을 위한 브릿지 이미지 토큰(Bridge Image Tokens for Hard Text Attribute Binding), 이는 복제된 이미지 토큰을 브릿지 토큰으로 사용하여 텍스트 데이터만으로 사전 학습된 T5 텍스트 임베딩이 Joint Attention 동안 각 인스턴스에 대한 올바른 시각적 속성을 바인딩하도록 보장합니다; 2) 핵심 레이어에만 적용되는 하드 이미지 속성 바인딩(Hard Image Attribute Binding). FLUX를 분석한 결과, 우리는 인스턴스 속성 렌더링을 담당하는 중요한 레이어들을 식별하고, 이 레이어들에서만 하드 이미지 속성 바인딩을 적용하며, 다른 레이어에서는 소프트 바인딩을 사용합니다. 이 접근법은 정밀한 제어를 보장하면서도 이미지 품질을 유지합니다. COCO-POS 및 COCO-MIG 벤치마크에서의 평가 결과, DreamRenderer는 FLUX 대비 이미지 성공 비율(Image Success Ratio)을 17.7% 향상시키고, GLIGEN 및 3DIS와 같은 레이아웃-투-이미지 모델의 성능을 최대 26.8% 향상시킴을 보여줍니다. 프로젝트 페이지: https://limuloo.github.io/DreamRenderer/.
English
Image-conditioned generation methods, such as depth- and canny-conditioned approaches, have demonstrated remarkable abilities for precise image synthesis. However, existing models still struggle to accurately control the content of multiple instances (or regions). Even state-of-the-art models like FLUX and 3DIS face challenges, such as attribute leakage between instances, which limits user control. To address these issues, we introduce DreamRenderer, a training-free approach built upon the FLUX model. DreamRenderer enables users to control the content of each instance via bounding boxes or masks, while ensuring overall visual harmony. We propose two key innovations: 1) Bridge Image Tokens for Hard Text Attribute Binding, which uses replicated image tokens as bridge tokens to ensure that T5 text embeddings, pre-trained solely on text data, bind the correct visual attributes for each instance during Joint Attention; 2) Hard Image Attribute Binding applied only to vital layers. Through our analysis of FLUX, we identify the critical layers responsible for instance attribute rendering and apply Hard Image Attribute Binding only in these layers, using soft binding in the others. This approach ensures precise control while preserving image quality. Evaluations on the COCO-POS and COCO-MIG benchmarks demonstrate that DreamRenderer improves the Image Success Ratio by 17.7% over FLUX and enhances the performance of layout-to-image models like GLIGEN and 3DIS by up to 26.8%. Project Page: https://limuloo.github.io/DreamRenderer/.

Summary

AI-Generated Summary

PDF443March 18, 2025