IMG: Calibrazione dei Modelli di Diffusione tramite Guida Implicita Multimodale

Abstract

Garantire un allineamento multimodale preciso tra le immagini generate tramite diffusione e i prompt di input è stata una sfida di lunga data. I lavori precedenti ottimizzano i pesi della diffusione utilizzando dati di preferenza di alta qualità, che tendono a essere limitati e difficili da scalare. I metodi recenti basati sull'editing perfezionano ulteriormente le regioni locali delle immagini generate, ma possono compromettere la qualità complessiva dell'immagine. In questo lavoro, proponiamo Implicit Multimodal Guidance (IMG), un innovativo framework di allineamento multimodale basato sulla rigenerazione che non richiede dati aggiuntivi o operazioni di editing. Nello specifico, data un'immagine generata e il suo prompt, IMG a) utilizza un modello linguistico multimodale di grandi dimensioni (MLLM) per identificare i disallineamenti; b) introduce un Implicit Aligner che manipola le caratteristiche di condizionamento della diffusione per ridurre i disallineamenti e consentire la rigenerazione; e c) formula l'obiettivo di riallineamento in un obiettivo addestrabile, denominato Iteratively Updated Preference Objective. Valutazioni qualitative e quantitative estensive su SDXL, SDXL-DPO e FLUX dimostrano che IMG supera i metodi di allineamento esistenti. Inoltre, IMG funziona come un adattatore plug-and-play flessibile, migliorando senza soluzione di continuità i metodi di allineamento basati su ottimizzazione precedenti. Il nostro codice sarà disponibile all'indirizzo https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.

English

Ensuring precise multimodal alignment between diffusion-generated images and input prompts has been a long-standing challenge. Earlier works finetune diffusion weight using high-quality preference data, which tends to be limited and difficult to scale up. Recent editing-based methods further refine local regions of generated images but may compromise overall image quality. In this work, we propose Implicit Multimodal Guidance (IMG), a novel re-generation-based multimodal alignment framework that requires no extra data or editing operations. Specifically, given a generated image and its prompt, IMG a) utilizes a multimodal large language model (MLLM) to identify misalignments; b) introduces an Implicit Aligner that manipulates diffusion conditioning features to reduce misalignments and enable re-generation; and c) formulates the re-alignment goal into a trainable objective, namely Iteratively Updated Preference Objective. Extensive qualitative and quantitative evaluations on SDXL, SDXL-DPO, and FLUX show that IMG outperforms existing alignment methods. Furthermore, IMG acts as a flexible plug-and-play adapter, seamlessly enhancing prior finetuning-based alignment methods. Our code will be available at https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.

IMG: Calibrazione dei Modelli di Diffusione tramite Guida Implicita Multimodale

IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance

Abstract

Support