Penso, quindi Diffondo: Abilitare il Ragionamento Multimodale in Contesto nei Modelli di Diffusione
I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models
February 12, 2025
Autori: Zhenxing Mi, Kuan-Chieh Wang, Guocheng Qian, Hanrong Ye, Runtao Liu, Sergey Tulyakov, Kfir Aberman, Dan Xu
cs.AI
Abstract
Questo articolo presenta ThinkDiff, un nuovo paradigma di allineamento che potenzia i modelli di diffusione testo-immagine con capacità di comprensione e ragionamento multimodale in contesto, integrando i punti di forza dei modelli visione-linguaggio (VLMs). I metodi esistenti di fine-tuning multimodale per la diffusione si concentrano principalmente sulla ricostruzione a livello di pixel piuttosto che sul ragionamento in contesto, e sono limitati dalla complessità e dalla disponibilità ridotta di dataset basati sul ragionamento. ThinkDiff affronta queste sfide sfruttando l'addestramento visione-linguaggio come task proxy, allineando i VLMs con il decodificatore di un modello linguistico di grandi dimensioni (LLM) di tipo encoder-decoder anziché con un decodificatore di diffusione. Questo task proxy si basa sull'osservazione che il decodificatore LLM condivide lo stesso spazio di caratteristiche di input con i decodificatori di diffusione che utilizzano il corrispondente encoder LLM per l'incorporamento dei prompt. Di conseguenza, l'allineamento dei VLMs con i decodificatori di diffusione può essere semplificato attraverso l'allineamento con il decodificatore LLM. Senza la necessità di addestramenti complessi e dataset specifici, ThinkDiff libera efficacemente le capacità di comprensione, ragionamento e composizione nei modelli di diffusione. Gli esperimenti dimostrano che ThinkDiff migliora significativamente l'accuratezza dal 19,2% al 46,3% sul benchmark CoBSAT, particolarmente impegnativo per la generazione di ragionamento multimodale in contesto, con soli 5 ore di addestramento su 4 GPU A100. Inoltre, ThinkDiff mostra prestazioni eccezionali nella composizione di più immagini e testi in immagini logicamente coerenti. Pagina del progetto: https://mizhenxing.github.io/ThinkDiff.
English
This paper presents ThinkDiff, a novel alignment paradigm that empowers
text-to-image diffusion models with multimodal in-context understanding and
reasoning capabilities by integrating the strengths of vision-language models
(VLMs). Existing multimodal diffusion finetuning methods largely focus on
pixel-level reconstruction rather than in-context reasoning, and are
constrained by the complexity and limited availability of reasoning-based
datasets. ThinkDiff addresses these challenges by leveraging vision-language
training as a proxy task, aligning VLMs with the decoder of an encoder-decoder
large language model (LLM) instead of a diffusion decoder. This proxy task
builds on the observation that the LLM decoder shares the same input
feature space with diffusion decoders that use the corresponding
LLM encoder for prompt embedding. As a result, aligning VLMs with
diffusion decoders can be simplified through alignment with the LLM decoder.
Without complex training and datasets, ThinkDiff effectively unleashes
understanding, reasoning, and composing capabilities in diffusion models.
Experiments demonstrate that ThinkDiff significantly improves accuracy from
19.2% to 46.3% on the challenging CoBSAT benchmark for multimodal in-context
reasoning generation, with only 5 hours of training on 4 A100 GPUs.
Additionally, ThinkDiff demonstrates exceptional performance in composing
multiple images and texts into logically coherent images. Project page:
https://mizhenxing.github.io/ThinkDiff.Summary
AI-Generated Summary