IterComp: 텍스트에서 이미지로 생성하는 모델 갤러리로부터의 반복적인 구성 인식 피드백 학습
IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation
October 9, 2024
저자: Xinchen Zhang, Ling Yang, Guohao Li, Yaqi Cai, Jiake Xie, Yong Tang, Yujiu Yang, Mengdi Wang, Bin Cui
cs.AI
초록
RPG, Stable Diffusion 3 및 FLUX와 같은 고급 확산 모델은 구성적 텍스트에서 이미지를 생성하는 데 주목할만한 발전을 이루었습니다. 그러나 이러한 방법들은 일반적으로 구성적 생성에 대해 각기 다른 강점을 나타내며, 일부는 속성 바인딩을 처리하는 데 뛰어나고 다른 일부는 공간 관계를 처리하는 데 뛰어납니다. 이러한 격차는 다양한 모델의 보완적인 강점을 활용하여 구성 능력을 체계적으로 향상시킬 수 있는 접근 방식이 필요함을 강조합니다. 이를 위해 우리는 IterComp이라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 여러 모델로부터 집합적 구성 인식 모델 선호도를 집계하고 반복적 피드백 학습 접근 방식을 활용하여 구성적 생성을 향상시킵니다. 구체적으로, 우리는 여섯 가지 강력한 오픈 소스 확산 모델 갤러리를 선별하고 그들의 세 가지 주요 구성적 측정 항목인 속성 바인딩, 공간 관계 및 비-공간 관계를 평가합니다. 이러한 측정 항목을 기반으로, 다수의 이미지-순위 쌍으로 이루어진 구성 인식 모델 선호도 데이터셋을 개발하여 구성 인식 보상 모델을 훈련시킵니다. 그런 다음, 기본 확산 모델과 보상 모델을 여러 번 반복하여 점진적으로 자기 정제할 수 있는 반복적 피드백 학습 방법을 제안합니다. 이론적 증명은 효과적임을 보여주며, 다양한 실험 결과는 이전 SOTA 방법 (예: Omost 및 FLUX)에 비해 특히 다중 범주 객체 구성 및 복잡한 의미적 정렬에서 우리의 상당한 우위를 보여줍니다. IterComp은 확산 모델 및 구성적 생성을 위한 보상 피드백 학습에 대한 새로운 연구 방향을 열어줍니다. 코드: https://github.com/YangLing0818/IterComp
English
Advanced diffusion models like RPG, Stable Diffusion 3 and FLUX have made
notable strides in compositional text-to-image generation. However, these
methods typically exhibit distinct strengths for compositional generation, with
some excelling in handling attribute binding and others in spatial
relationships. This disparity highlights the need for an approach that can
leverage the complementary strengths of various models to comprehensively
improve the composition capability. To this end, we introduce IterComp, a novel
framework that aggregates composition-aware model preferences from multiple
models and employs an iterative feedback learning approach to enhance
compositional generation. Specifically, we curate a gallery of six powerful
open-source diffusion models and evaluate their three key compositional
metrics: attribute binding, spatial relationships, and non-spatial
relationships. Based on these metrics, we develop a composition-aware model
preference dataset comprising numerous image-rank pairs to train
composition-aware reward models. Then, we propose an iterative feedback
learning method to enhance compositionality in a closed-loop manner, enabling
the progressive self-refinement of both the base diffusion model and reward
models over multiple iterations. Theoretical proof demonstrates the
effectiveness and extensive experiments show our significant superiority over
previous SOTA methods (e.g., Omost and FLUX), particularly in multi-category
object composition and complex semantic alignment. IterComp opens new research
avenues in reward feedback learning for diffusion models and compositional
generation. Code: https://github.com/YangLing0818/IterCompSummary
AI-Generated Summary