ChatPaper.aiChatPaper

IMG: 암시적 다중모드 가이던스를 통한 확산 모델 보정

IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance

September 30, 2025
저자: Jiayi Guo, Chuanhao Yan, Xingqian Xu, Yulin Wang, Kai Wang, Gao Huang, Humphrey Shi
cs.AI

초록

확산 모델로 생성된 이미지와 입력 프롬프트 간의 정확한 다중모달 정렬을 보장하는 것은 오랜 기간 동안 해결되지 않은 과제였습니다. 기존 연구들은 고품질 선호도 데이터를 사용해 확산 모델의 가중치를 미세 조정하는 방식을 채택했으나, 이러한 데이터는 제한적이고 확장하기 어려운 단점이 있었습니다. 최근 편집 기반 방법들은 생성된 이미지의 특정 영역을 추가로 개선하지만, 전체 이미지 품질을 저하시킬 가능성이 있습니다. 본 연구에서는 추가 데이터나 편집 작업 없이도 다중모달 정렬을 가능하게 하는 새로운 재생성 기반 프레임워크인 Implicit Multimodal Guidance(IMG)를 제안합니다. 구체적으로, IMG는 생성된 이미지와 해당 프롬프트가 주어졌을 때 a) 다중모달 대형 언어 모델(MLLM)을 활용해 정렬 오류를 식별하고, b) 확산 조건화 특징을 조작하여 정렬 오류를 줄이고 재생성을 가능하게 하는 Implicit Aligner를 도입하며, c) 재정렬 목표를 Iteratively Updated Preference Objective라는 학습 가능한 목적 함수로 공식화합니다. SDXL, SDXL-DPO, FLUX에 대한 광범위한 정성적 및 정량적 평가를 통해 IMG가 기존 정렬 방법들을 능가함을 입증했습니다. 또한 IMG는 유연한 플러그앤플레이 어댑터로 작동하여, 기존 미세 조정 기반 정렬 방법들을 원활하게 향상시킬 수 있습니다. 본 연구의 코드는 https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment에서 공개될 예정입니다.
English
Ensuring precise multimodal alignment between diffusion-generated images and input prompts has been a long-standing challenge. Earlier works finetune diffusion weight using high-quality preference data, which tends to be limited and difficult to scale up. Recent editing-based methods further refine local regions of generated images but may compromise overall image quality. In this work, we propose Implicit Multimodal Guidance (IMG), a novel re-generation-based multimodal alignment framework that requires no extra data or editing operations. Specifically, given a generated image and its prompt, IMG a) utilizes a multimodal large language model (MLLM) to identify misalignments; b) introduces an Implicit Aligner that manipulates diffusion conditioning features to reduce misalignments and enable re-generation; and c) formulates the re-alignment goal into a trainable objective, namely Iteratively Updated Preference Objective. Extensive qualitative and quantitative evaluations on SDXL, SDXL-DPO, and FLUX show that IMG outperforms existing alignment methods. Furthermore, IMG acts as a flexible plug-and-play adapter, seamlessly enhancing prior finetuning-based alignment methods. Our code will be available at https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.
PDF121October 1, 2025