IMG: Calibrazione dei Modelli di Diffusione tramite Guida Implicita Multimodale
IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance
September 30, 2025
Autori: Jiayi Guo, Chuanhao Yan, Xingqian Xu, Yulin Wang, Kai Wang, Gao Huang, Humphrey Shi
cs.AI
Abstract
Garantire un allineamento multimodale preciso tra le immagini generate tramite diffusione e i prompt di input è stata una sfida di lunga data. I lavori precedenti ottimizzano i pesi della diffusione utilizzando dati di preferenza di alta qualità, che tendono a essere limitati e difficili da scalare. I metodi recenti basati sull'editing perfezionano ulteriormente le regioni locali delle immagini generate, ma possono compromettere la qualità complessiva dell'immagine. In questo lavoro, proponiamo Implicit Multimodal Guidance (IMG), un innovativo framework di allineamento multimodale basato sulla rigenerazione che non richiede dati aggiuntivi o operazioni di editing. Nello specifico, data un'immagine generata e il suo prompt, IMG a) utilizza un modello linguistico multimodale di grandi dimensioni (MLLM) per identificare i disallineamenti; b) introduce un Implicit Aligner che manipola le caratteristiche di condizionamento della diffusione per ridurre i disallineamenti e consentire la rigenerazione; e c) formula l'obiettivo di riallineamento in un obiettivo addestrabile, denominato Iteratively Updated Preference Objective. Valutazioni qualitative e quantitative estensive su SDXL, SDXL-DPO e FLUX dimostrano che IMG supera i metodi di allineamento esistenti. Inoltre, IMG funziona come un adattatore plug-and-play flessibile, migliorando senza soluzione di continuità i metodi di allineamento basati su ottimizzazione precedenti. Il nostro codice sarà disponibile all'indirizzo https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.
English
Ensuring precise multimodal alignment between diffusion-generated images and
input prompts has been a long-standing challenge. Earlier works finetune
diffusion weight using high-quality preference data, which tends to be limited
and difficult to scale up. Recent editing-based methods further refine local
regions of generated images but may compromise overall image quality. In this
work, we propose Implicit Multimodal Guidance (IMG), a novel
re-generation-based multimodal alignment framework that requires no extra data
or editing operations. Specifically, given a generated image and its prompt,
IMG a) utilizes a multimodal large language model (MLLM) to identify
misalignments; b) introduces an Implicit Aligner that manipulates diffusion
conditioning features to reduce misalignments and enable re-generation; and c)
formulates the re-alignment goal into a trainable objective, namely Iteratively
Updated Preference Objective. Extensive qualitative and quantitative
evaluations on SDXL, SDXL-DPO, and FLUX show that IMG outperforms existing
alignment methods. Furthermore, IMG acts as a flexible plug-and-play adapter,
seamlessly enhancing prior finetuning-based alignment methods. Our code will be
available at https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.