Ik Denk, Daarom Diffuseer Ik: Multimodale In-Context Redenering Mogelijk Maken in Diffusiemodellen
I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models
February 12, 2025
Auteurs: Zhenxing Mi, Kuan-Chieh Wang, Guocheng Qian, Hanrong Ye, Runtao Liu, Sergey Tulyakov, Kfir Aberman, Dan Xu
cs.AI
Samenvatting
Dit artikel introduceert ThinkDiff, een nieuw uitlijningsparadigma dat tekst-naar-beeld diffusiemodellen uitrust met multimodale in-context begrips- en redeneervaardigheden door de sterke punten van visie-taalmodellen (VLMs) te integreren. Bestaande multimodale diffusie-finetuningmethoden richten zich voornamelijk op pixel-niveau reconstructie in plaats van in-context redeneren, en worden beperkt door de complexiteit en beperkte beschikbaarheid van redeneringsgebaseerde datasets. ThinkDiff lost deze uitdagingen op door visie-taal training te gebruiken als een proxytaak, waarbij VLMs worden uitgelijnd met de decoder van een encoder-decoder groot taalmodel (LLM) in plaats van een diffusiedecoder. Deze proxytaak bouwt voort op de observatie dat de LLM-decoder dezelfde invoerkenmerkruimte deelt met diffusiedecoders die de corresponderende LLM-encoder gebruiken voor prompt-embedding. Hierdoor kan het uitlijnen van VLMs met diffusiedecoders worden vereenvoudigd door uitlijning met de LLM-decoder. Zonder complexe training en datasets maakt ThinkDiff effectief begrip, redeneren en componeren mogelijk in diffusiemodellen. Experimenten tonen aan dat ThinkDiff de nauwkeurigheid aanzienlijk verbetert van 19,2% naar 46,3% op de uitdagende CoBSAT benchmark voor multimodale in-context redeneergeneratie, met slechts 5 uur training op 4 A100 GPU's. Daarnaast toont ThinkDiff uitzonderlijke prestaties in het samenstellen van meerdere afbeeldingen en teksten tot logisch samenhangende afbeeldingen. Projectpagina: https://mizhenxing.github.io/ThinkDiff.
English
This paper presents ThinkDiff, a novel alignment paradigm that empowers
text-to-image diffusion models with multimodal in-context understanding and
reasoning capabilities by integrating the strengths of vision-language models
(VLMs). Existing multimodal diffusion finetuning methods largely focus on
pixel-level reconstruction rather than in-context reasoning, and are
constrained by the complexity and limited availability of reasoning-based
datasets. ThinkDiff addresses these challenges by leveraging vision-language
training as a proxy task, aligning VLMs with the decoder of an encoder-decoder
large language model (LLM) instead of a diffusion decoder. This proxy task
builds on the observation that the LLM decoder shares the same input
feature space with diffusion decoders that use the corresponding
LLM encoder for prompt embedding. As a result, aligning VLMs with
diffusion decoders can be simplified through alignment with the LLM decoder.
Without complex training and datasets, ThinkDiff effectively unleashes
understanding, reasoning, and composing capabilities in diffusion models.
Experiments demonstrate that ThinkDiff significantly improves accuracy from
19.2% to 46.3% on the challenging CoBSAT benchmark for multimodal in-context
reasoning generation, with only 5 hours of training on 4 A100 GPUs.
Additionally, ThinkDiff demonstrates exceptional performance in composing
multiple images and texts into logically coherent images. Project page:
https://mizhenxing.github.io/ThinkDiff.Summary
AI-Generated Summary