ChatPaper.aiChatPaper

IMG: Калибровка диффузионных моделей с помощью неявного мультимодального руководства

IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance

September 30, 2025
Авторы: Jiayi Guo, Chuanhao Yan, Xingqian Xu, Yulin Wang, Kai Wang, Gao Huang, Humphrey Shi
cs.AI

Аннотация

Обеспечение точного мультимодального соответствия между изображениями, сгенерированными с помощью диффузионных моделей, и входными текстовыми запросами остается давней проблемой. Предыдущие работы настраивали веса диффузионных моделей с использованием высококачественных данных о предпочтениях, которые, как правило, ограничены и сложны для масштабирования. Недавние методы, основанные на редактировании, дополнительно улучшают локальные области сгенерированных изображений, но могут ухудшать общее качество изображения. В данной работе мы предлагаем Implicit Multimodal Guidance (IMG) — новый фреймворк для мультимодального выравнивания, основанный на повторной генерации, который не требует дополнительных данных или операций редактирования. В частности, для заданного сгенерированного изображения и его текстового запроса IMG: а) использует мультимодальную языковую модель (MLLM) для выявления несоответствий; б) вводит Implicit Aligner, который манипулирует признаками условий диффузии для уменьшения несоответствий и обеспечения повторной генерации; и в) формулирует цель повторного выравнивания в виде обучаемой функции, называемой Iteratively Updated Preference Objective. Обширные качественные и количественные оценки на моделях SDXL, SDXL-DPO и FLUX показывают, что IMG превосходит существующие методы выравнивания. Более того, IMG выступает в качестве гибкого адаптера plug-and-play, бесшовно улучшая предыдущие методы выравнивания, основанные на тонкой настройке. Наш код будет доступен по адресу https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.
English
Ensuring precise multimodal alignment between diffusion-generated images and input prompts has been a long-standing challenge. Earlier works finetune diffusion weight using high-quality preference data, which tends to be limited and difficult to scale up. Recent editing-based methods further refine local regions of generated images but may compromise overall image quality. In this work, we propose Implicit Multimodal Guidance (IMG), a novel re-generation-based multimodal alignment framework that requires no extra data or editing operations. Specifically, given a generated image and its prompt, IMG a) utilizes a multimodal large language model (MLLM) to identify misalignments; b) introduces an Implicit Aligner that manipulates diffusion conditioning features to reduce misalignments and enable re-generation; and c) formulates the re-alignment goal into a trainable objective, namely Iteratively Updated Preference Objective. Extensive qualitative and quantitative evaluations on SDXL, SDXL-DPO, and FLUX show that IMG outperforms existing alignment methods. Furthermore, IMG acts as a flexible plug-and-play adapter, seamlessly enhancing prior finetuning-based alignment methods. Our code will be available at https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.
PDF121October 1, 2025