IMG: Kalibratie van Diffusiemodellen via Impliciete Multimodale Begeleiding
IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance
September 30, 2025
Auteurs: Jiayi Guo, Chuanhao Yan, Xingqian Xu, Yulin Wang, Kai Wang, Gao Huang, Humphrey Shi
cs.AI
Samenvatting
Het waarborgen van precieze multimodale afstemming tussen door diffusie gegenereerde afbeeldingen en invoerprompts is al lang een uitdaging. Eerdere werken finetunen diffusiegewichten met behulp van hoogwaardige voorkeursdata, die vaak beperkt en moeilijk op te schalen zijn. Recente op bewerking gebaseerde methoden verfijnen lokale regio's van gegenereerde afbeeldingen verder, maar kunnen de algehele beeldkwaliteit in gevaar brengen. In dit werk stellen we Implicit Multimodal Guidance (IMG) voor, een nieuw hergeneratie-gebaseerd multimodaal afstemmingsraamwerk dat geen extra data of bewerkingen vereist. Specifiek maakt IMG, gegeven een gegenereerde afbeelding en de bijbehorende prompt, a) gebruik van een multimodaal groot taalmodel (MLLM) om misalignments te identificeren; b) introduceert een Implicit Aligner die diffusieconditioneringskenmerken manipuleert om misalignments te verminderen en hergeneratie mogelijk te maken; en c) formuleert het heraligneringsdoel in een trainbaar objectief, namelijk het Iteratief Bijgewerkte Voorkeursobjectief. Uitgebreide kwalitatieve en kwantitatieve evaluaties op SDXL, SDXL-DPO en FLUX tonen aan dat IMG bestaande afstemmingsmethoden overtreft. Bovendien fungeert IMG als een flexibele plug-and-play adapter, die naadloos eerdere op finetuning gebaseerde afstemmingsmethoden versterkt. Onze code zal beschikbaar zijn op https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.
English
Ensuring precise multimodal alignment between diffusion-generated images and
input prompts has been a long-standing challenge. Earlier works finetune
diffusion weight using high-quality preference data, which tends to be limited
and difficult to scale up. Recent editing-based methods further refine local
regions of generated images but may compromise overall image quality. In this
work, we propose Implicit Multimodal Guidance (IMG), a novel
re-generation-based multimodal alignment framework that requires no extra data
or editing operations. Specifically, given a generated image and its prompt,
IMG a) utilizes a multimodal large language model (MLLM) to identify
misalignments; b) introduces an Implicit Aligner that manipulates diffusion
conditioning features to reduce misalignments and enable re-generation; and c)
formulates the re-alignment goal into a trainable objective, namely Iteratively
Updated Preference Objective. Extensive qualitative and quantitative
evaluations on SDXL, SDXL-DPO, and FLUX show that IMG outperforms existing
alignment methods. Furthermore, IMG acts as a flexible plug-and-play adapter,
seamlessly enhancing prior finetuning-based alignment methods. Our code will be
available at https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.