IMG: Calibrando Modelos de Difusão por meio de Orientação Implícita Multimodal
IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance
September 30, 2025
Autores: Jiayi Guo, Chuanhao Yan, Xingqian Xu, Yulin Wang, Kai Wang, Gao Huang, Humphrey Shi
cs.AI
Resumo
Garantir um alinhamento multimodal preciso entre imagens geradas por difusão e prompts de entrada tem sido um desafio de longa data. Trabalhos anteriores ajustam os pesos do modelo de difusão utilizando dados de preferência de alta qualidade, que tendem a ser limitados e difíceis de escalar. Métodos recentes baseados em edição refinam regiões locais das imagens geradas, mas podem comprometer a qualidade geral da imagem. Neste trabalho, propomos o Implicit Multimodal Guidance (IMG), uma nova estrutura de alinhamento multimodal baseada em re-geração que não requer dados adicionais ou operações de edição. Especificamente, dada uma imagem gerada e seu prompt, o IMG a) utiliza um modelo de linguagem multimodal de grande escala (MLLM) para identificar desalinhamentos; b) introduz um Alinhador Implícito que manipula as características de condicionamento da difusão para reduzir desalinhamentos e permitir a re-geração; e c) formula o objetivo de realinhamento em uma função de treinamento, denominada Iteratively Updated Preference Objective. Avaliações qualitativas e quantitativas extensas no SDXL, SDXL-DPO e FLUX mostram que o IMG supera os métodos de alinhamento existentes. Além disso, o IMG atua como um adaptador flexível plug-and-play, aprimorando de forma contínua métodos de alinhamento baseados em ajuste fino anteriores. Nosso código estará disponível em https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.
English
Ensuring precise multimodal alignment between diffusion-generated images and
input prompts has been a long-standing challenge. Earlier works finetune
diffusion weight using high-quality preference data, which tends to be limited
and difficult to scale up. Recent editing-based methods further refine local
regions of generated images but may compromise overall image quality. In this
work, we propose Implicit Multimodal Guidance (IMG), a novel
re-generation-based multimodal alignment framework that requires no extra data
or editing operations. Specifically, given a generated image and its prompt,
IMG a) utilizes a multimodal large language model (MLLM) to identify
misalignments; b) introduces an Implicit Aligner that manipulates diffusion
conditioning features to reduce misalignments and enable re-generation; and c)
formulates the re-alignment goal into a trainable objective, namely Iteratively
Updated Preference Objective. Extensive qualitative and quantitative
evaluations on SDXL, SDXL-DPO, and FLUX show that IMG outperforms existing
alignment methods. Furthermore, IMG acts as a flexible plug-and-play adapter,
seamlessly enhancing prior finetuning-based alignment methods. Our code will be
available at https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.