IMG : Calibration des modèles de diffusion via un guidage multimodal implicite
IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance
September 30, 2025
papers.authors: Jiayi Guo, Chuanhao Yan, Xingqian Xu, Yulin Wang, Kai Wang, Gao Huang, Humphrey Shi
cs.AI
papers.abstract
Assurer un alignement multimodal précis entre les images générées par diffusion et les prompts d'entrée constitue un défi de longue date. Les travaux antérieurs ajustent les poids de diffusion à l'aide de données de préférence de haute qualité, qui tendent à être limitées et difficiles à étendre. Les méthodes récentes basées sur l'édition affinent davantage les régions locales des images générées, mais peuvent compromettre la qualité globale de l'image. Dans ce travail, nous proposons Implicit Multimodal Guidance (IMG), un nouveau cadre d'alignement multimodal basé sur la régénération qui ne nécessite aucune donnée supplémentaire ni opération d'édition. Plus précisément, étant donné une image générée et son prompt, IMG a) utilise un modèle de langage multimodal (MLLM) pour identifier les désalignements ; b) introduit un Aligner Implicite qui manipule les caractéristiques de conditionnement de la diffusion pour réduire les désalignements et permettre la régénération ; et c) formule l'objectif de réalignement en une fonction objectif entraînable, appelée Iteratively Updated Preference Objective. Des évaluations qualitatives et quantitatives approfondies sur SDXL, SDXL-DPO et FLUX montrent qu'IMG surpasse les méthodes d'alignement existantes. De plus, IMG agit comme un adaptateur plug-and-play flexible, améliorant de manière transparente les méthodes d'alignement basées sur l'ajustement fin précédent. Notre code sera disponible à l'adresse https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.
English
Ensuring precise multimodal alignment between diffusion-generated images and
input prompts has been a long-standing challenge. Earlier works finetune
diffusion weight using high-quality preference data, which tends to be limited
and difficult to scale up. Recent editing-based methods further refine local
regions of generated images but may compromise overall image quality. In this
work, we propose Implicit Multimodal Guidance (IMG), a novel
re-generation-based multimodal alignment framework that requires no extra data
or editing operations. Specifically, given a generated image and its prompt,
IMG a) utilizes a multimodal large language model (MLLM) to identify
misalignments; b) introduces an Implicit Aligner that manipulates diffusion
conditioning features to reduce misalignments and enable re-generation; and c)
formulates the re-alignment goal into a trainable objective, namely Iteratively
Updated Preference Objective. Extensive qualitative and quantitative
evaluations on SDXL, SDXL-DPO, and FLUX show that IMG outperforms existing
alignment methods. Furthermore, IMG acts as a flexible plug-and-play adapter,
seamlessly enhancing prior finetuning-based alignment methods. Our code will be
available at https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.