IMG: Calibración de Modelos de Difusión mediante Guía Implícita Multimodal
IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance
September 30, 2025
Autores: Jiayi Guo, Chuanhao Yan, Xingqian Xu, Yulin Wang, Kai Wang, Gao Huang, Humphrey Shi
cs.AI
Resumen
Garantizar una alineación multimodal precisa entre las imágenes generadas por difusión y las indicaciones de entrada ha sido un desafío de larga data. Trabajos anteriores ajustan los pesos de difusión utilizando datos de preferencia de alta calidad, los cuales tienden a ser limitados y difíciles de escalar. Métodos recientes basados en edición refinan regiones locales de las imágenes generadas, pero pueden comprometer la calidad general de la imagen. En este trabajo, proponemos la Guía Multimodal Implícita (IMG, por sus siglas en inglés), un novedoso marco de alineación multimodal basado en regeneración que no requiere datos adicionales ni operaciones de edición. Específicamente, dada una imagen generada y su indicación, IMG a) utiliza un modelo de lenguaje multimodal de gran escala (MLLM) para identificar desalineaciones; b) introduce un Alineador Implícito que manipula las características de condicionamiento de la difusión para reducir las desalineaciones y permitir la regeneración; y c) formula el objetivo de realineación en una función entrenable, denominada Objetivo de Preferencia Actualizado Iterativamente. Evaluaciones cualitativas y cuantitativas exhaustivas en SDXL, SDXL-DPO y FLUX muestran que IMG supera a los métodos de alineación existentes. Además, IMG actúa como un adaptador flexible de tipo plug-and-play, mejorando de manera fluida los métodos de alineación basados en ajuste previo. Nuestro código estará disponible en https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.
English
Ensuring precise multimodal alignment between diffusion-generated images and
input prompts has been a long-standing challenge. Earlier works finetune
diffusion weight using high-quality preference data, which tends to be limited
and difficult to scale up. Recent editing-based methods further refine local
regions of generated images but may compromise overall image quality. In this
work, we propose Implicit Multimodal Guidance (IMG), a novel
re-generation-based multimodal alignment framework that requires no extra data
or editing operations. Specifically, given a generated image and its prompt,
IMG a) utilizes a multimodal large language model (MLLM) to identify
misalignments; b) introduces an Implicit Aligner that manipulates diffusion
conditioning features to reduce misalignments and enable re-generation; and c)
formulates the re-alignment goal into a trainable objective, namely Iteratively
Updated Preference Objective. Extensive qualitative and quantitative
evaluations on SDXL, SDXL-DPO, and FLUX show that IMG outperforms existing
alignment methods. Furthermore, IMG acts as a flexible plug-and-play adapter,
seamlessly enhancing prior finetuning-based alignment methods. Our code will be
available at https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.