ChatPaper.aiChatPaper

IMG : Calibration des modèles de diffusion via un guidage multimodal implicite

IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance

September 30, 2025
papers.authors: Jiayi Guo, Chuanhao Yan, Xingqian Xu, Yulin Wang, Kai Wang, Gao Huang, Humphrey Shi
cs.AI

papers.abstract

Assurer un alignement multimodal précis entre les images générées par diffusion et les prompts d'entrée constitue un défi de longue date. Les travaux antérieurs ajustent les poids de diffusion à l'aide de données de préférence de haute qualité, qui tendent à être limitées et difficiles à étendre. Les méthodes récentes basées sur l'édition affinent davantage les régions locales des images générées, mais peuvent compromettre la qualité globale de l'image. Dans ce travail, nous proposons Implicit Multimodal Guidance (IMG), un nouveau cadre d'alignement multimodal basé sur la régénération qui ne nécessite aucune donnée supplémentaire ni opération d'édition. Plus précisément, étant donné une image générée et son prompt, IMG a) utilise un modèle de langage multimodal (MLLM) pour identifier les désalignements ; b) introduit un Aligner Implicite qui manipule les caractéristiques de conditionnement de la diffusion pour réduire les désalignements et permettre la régénération ; et c) formule l'objectif de réalignement en une fonction objectif entraînable, appelée Iteratively Updated Preference Objective. Des évaluations qualitatives et quantitatives approfondies sur SDXL, SDXL-DPO et FLUX montrent qu'IMG surpasse les méthodes d'alignement existantes. De plus, IMG agit comme un adaptateur plug-and-play flexible, améliorant de manière transparente les méthodes d'alignement basées sur l'ajustement fin précédent. Notre code sera disponible à l'adresse https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.
English
Ensuring precise multimodal alignment between diffusion-generated images and input prompts has been a long-standing challenge. Earlier works finetune diffusion weight using high-quality preference data, which tends to be limited and difficult to scale up. Recent editing-based methods further refine local regions of generated images but may compromise overall image quality. In this work, we propose Implicit Multimodal Guidance (IMG), a novel re-generation-based multimodal alignment framework that requires no extra data or editing operations. Specifically, given a generated image and its prompt, IMG a) utilizes a multimodal large language model (MLLM) to identify misalignments; b) introduces an Implicit Aligner that manipulates diffusion conditioning features to reduce misalignments and enable re-generation; and c) formulates the re-alignment goal into a trainable objective, namely Iteratively Updated Preference Objective. Extensive qualitative and quantitative evaluations on SDXL, SDXL-DPO, and FLUX show that IMG outperforms existing alignment methods. Furthermore, IMG acts as a flexible plug-and-play adapter, seamlessly enhancing prior finetuning-based alignment methods. Our code will be available at https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.
PDF121October 1, 2025