ChatPaper.aiChatPaper

IMG: Kalibrierung von Diffusionsmodellen durch implizite multimodale Führung

IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance

September 30, 2025
papers.authors: Jiayi Guo, Chuanhao Yan, Xingqian Xu, Yulin Wang, Kai Wang, Gao Huang, Humphrey Shi
cs.AI

papers.abstract

Die Gewährleistung einer präzisen multimodalen Ausrichtung zwischen durch Diffusion generierten Bildern und Eingabeaufforderungen stellt seit langem eine Herausforderung dar. Frühere Arbeiten verfeinern die Diffusion-Gewichte mithilfe von hochwertigen Präferenzdaten, die jedoch tendenziell begrenzt und schwer zu skalieren sind. Neuere bearbeitungsbasierte Methoden verfeinern weiterhin lokale Regionen der generierten Bilder, können jedoch die Gesamtbildqualität beeinträchtigen. In dieser Arbeit schlagen wir Implicit Multimodal Guidance (IMG) vor, ein neuartiges, regenerationsbasiertes multimodales Ausrichtungsframework, das keine zusätzlichen Daten oder Bearbeitungsoperationen erfordert. Konkret nutzt IMG, gegeben ein generiertes Bild und dessen Aufforderung, a) ein multimodales großes Sprachmodell (MLLM), um Fehlausrichtungen zu identifizieren; b) führt einen Implicit Aligner ein, der die Diffusionsbedingungsmerkmale manipuliert, um Fehlausrichtungen zu reduzieren und eine Neugenerierung zu ermöglichen; und c) formuliert das Ziel der Neuausrichtung in ein trainierbares Ziel, nämlich das Iteratively Updated Preference Objective. Umfangreiche qualitative und quantitative Bewertungen an SDXL, SDXL-DPO und FLUX zeigen, dass IMG bestehende Ausrichtungsmethoden übertrifft. Darüber hinaus fungiert IMG als flexibler Plug-and-Play-Adapter, der nahtlos vorherige, auf Feinabstimmung basierende Ausrichtungsmethoden verbessert. Unser Code wird unter https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment verfügbar sein.
English
Ensuring precise multimodal alignment between diffusion-generated images and input prompts has been a long-standing challenge. Earlier works finetune diffusion weight using high-quality preference data, which tends to be limited and difficult to scale up. Recent editing-based methods further refine local regions of generated images but may compromise overall image quality. In this work, we propose Implicit Multimodal Guidance (IMG), a novel re-generation-based multimodal alignment framework that requires no extra data or editing operations. Specifically, given a generated image and its prompt, IMG a) utilizes a multimodal large language model (MLLM) to identify misalignments; b) introduces an Implicit Aligner that manipulates diffusion conditioning features to reduce misalignments and enable re-generation; and c) formulates the re-alignment goal into a trainable objective, namely Iteratively Updated Preference Objective. Extensive qualitative and quantitative evaluations on SDXL, SDXL-DPO, and FLUX show that IMG outperforms existing alignment methods. Furthermore, IMG acts as a flexible plug-and-play adapter, seamlessly enhancing prior finetuning-based alignment methods. Our code will be available at https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.
PDF121October 1, 2025