Я мыслю, следовательно, диффундирую: реализация мультимодального контекстного рассуждения в диффузионных моделях
I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models
February 12, 2025
Авторы: Zhenxing Mi, Kuan-Chieh Wang, Guocheng Qian, Hanrong Ye, Runtao Liu, Sergey Tulyakov, Kfir Aberman, Dan Xu
cs.AI
Аннотация
В данной статье представлен ThinkDiff — новая парадигма выравнивания, которая наделяет модели диффузии "текст-изображение" способностью к мультимодальному пониманию и рассуждению в контексте, интегрируя преимущества моделей "визуальный язык" (VLMs). Существующие методы тонкой настройки мультимодальной диффузии в основном сосредоточены на реконструкции на уровне пикселей, а не на рассуждениях в контексте, и ограничены сложностью и ограниченной доступностью наборов данных, ориентированных на рассуждения. ThinkDiff решает эти проблемы, используя обучение на задачах "визуальный язык" в качестве прокси-задачи, выравнивая VLMs с декодером модели языка с кодировщиком-декодером (LLM) вместо декодера диффузии. Эта прокси-задача основана на наблюдении, что декодер LLM использует то же пространство входных признаков, что и декодеры диффузии, которые применяют соответствующий кодировщик LLM для встраивания запросов. В результате выравнивание VLMs с декодерами диффузии можно упростить через выравнивание с декодером LLM. Без сложного обучения и наборов данных ThinkDiff эффективно раскрывает способности к пониманию, рассуждению и композиции в моделях диффузии. Эксперименты показывают, что ThinkDiff значительно улучшает точность с 19,2% до 46,3% на сложном бенчмарке CoBSAT для генерации мультимодальных рассуждений в контексте, при этом обучение занимает всего 5 часов на 4 GPU A100. Кроме того, ThinkDiff демонстрирует выдающуюся производительность в композиции нескольких изображений и текстов в логически согласованные изображения. Страница проекта: https://mizhenxing.github.io/ThinkDiff.
English
This paper presents ThinkDiff, a novel alignment paradigm that empowers
text-to-image diffusion models with multimodal in-context understanding and
reasoning capabilities by integrating the strengths of vision-language models
(VLMs). Existing multimodal diffusion finetuning methods largely focus on
pixel-level reconstruction rather than in-context reasoning, and are
constrained by the complexity and limited availability of reasoning-based
datasets. ThinkDiff addresses these challenges by leveraging vision-language
training as a proxy task, aligning VLMs with the decoder of an encoder-decoder
large language model (LLM) instead of a diffusion decoder. This proxy task
builds on the observation that the LLM decoder shares the same input
feature space with diffusion decoders that use the corresponding
LLM encoder for prompt embedding. As a result, aligning VLMs with
diffusion decoders can be simplified through alignment with the LLM decoder.
Without complex training and datasets, ThinkDiff effectively unleashes
understanding, reasoning, and composing capabilities in diffusion models.
Experiments demonstrate that ThinkDiff significantly improves accuracy from
19.2% to 46.3% on the challenging CoBSAT benchmark for multimodal in-context
reasoning generation, with only 5 hours of training on 4 A100 GPUs.
Additionally, ThinkDiff demonstrates exceptional performance in composing
multiple images and texts into logically coherent images. Project page:
https://mizhenxing.github.io/ThinkDiff.Summary
AI-Generated Summary