IMG: Kalibrierung von Diffusionsmodellen durch implizite multimodale Führung
IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance
September 30, 2025
papers.authors: Jiayi Guo, Chuanhao Yan, Xingqian Xu, Yulin Wang, Kai Wang, Gao Huang, Humphrey Shi
cs.AI
papers.abstract
Die Gewährleistung einer präzisen multimodalen Ausrichtung zwischen durch Diffusion generierten Bildern und Eingabeaufforderungen stellt seit langem eine Herausforderung dar. Frühere Arbeiten verfeinern die Diffusion-Gewichte mithilfe von hochwertigen Präferenzdaten, die jedoch tendenziell begrenzt und schwer zu skalieren sind. Neuere bearbeitungsbasierte Methoden verfeinern weiterhin lokale Regionen der generierten Bilder, können jedoch die Gesamtbildqualität beeinträchtigen. In dieser Arbeit schlagen wir Implicit Multimodal Guidance (IMG) vor, ein neuartiges, regenerationsbasiertes multimodales Ausrichtungsframework, das keine zusätzlichen Daten oder Bearbeitungsoperationen erfordert. Konkret nutzt IMG, gegeben ein generiertes Bild und dessen Aufforderung, a) ein multimodales großes Sprachmodell (MLLM), um Fehlausrichtungen zu identifizieren; b) führt einen Implicit Aligner ein, der die Diffusionsbedingungsmerkmale manipuliert, um Fehlausrichtungen zu reduzieren und eine Neugenerierung zu ermöglichen; und c) formuliert das Ziel der Neuausrichtung in ein trainierbares Ziel, nämlich das Iteratively Updated Preference Objective. Umfangreiche qualitative und quantitative Bewertungen an SDXL, SDXL-DPO und FLUX zeigen, dass IMG bestehende Ausrichtungsmethoden übertrifft. Darüber hinaus fungiert IMG als flexibler Plug-and-Play-Adapter, der nahtlos vorherige, auf Feinabstimmung basierende Ausrichtungsmethoden verbessert. Unser Code wird unter https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment verfügbar sein.
English
Ensuring precise multimodal alignment between diffusion-generated images and
input prompts has been a long-standing challenge. Earlier works finetune
diffusion weight using high-quality preference data, which tends to be limited
and difficult to scale up. Recent editing-based methods further refine local
regions of generated images but may compromise overall image quality. In this
work, we propose Implicit Multimodal Guidance (IMG), a novel
re-generation-based multimodal alignment framework that requires no extra data
or editing operations. Specifically, given a generated image and its prompt,
IMG a) utilizes a multimodal large language model (MLLM) to identify
misalignments; b) introduces an Implicit Aligner that manipulates diffusion
conditioning features to reduce misalignments and enable re-generation; and c)
formulates the re-alignment goal into a trainable objective, namely Iteratively
Updated Preference Objective. Extensive qualitative and quantitative
evaluations on SDXL, SDXL-DPO, and FLUX show that IMG outperforms existing
alignment methods. Furthermore, IMG acts as a flexible plug-and-play adapter,
seamlessly enhancing prior finetuning-based alignment methods. Our code will be
available at https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.