Ik Denk, Daarom Diffuseer Ik: Multimodale In-Context Redenering Mogelijk Maken in Diffusiemodellen

Samenvatting

Dit artikel introduceert ThinkDiff, een nieuw uitlijningsparadigma dat tekst-naar-beeld diffusiemodellen uitrust met multimodale in-context begrips- en redeneervaardigheden door de sterke punten van visie-taalmodellen (VLMs) te integreren. Bestaande multimodale diffusie-finetuningmethoden richten zich voornamelijk op pixel-niveau reconstructie in plaats van in-context redeneren, en worden beperkt door de complexiteit en beperkte beschikbaarheid van redeneringsgebaseerde datasets. ThinkDiff lost deze uitdagingen op door visie-taal training te gebruiken als een proxytaak, waarbij VLMs worden uitgelijnd met de decoder van een encoder-decoder groot taalmodel (LLM) in plaats van een diffusiedecoder. Deze proxytaak bouwt voort op de observatie dat de LLM-decoder dezelfde invoerkenmerkruimte deelt met diffusiedecoders die de corresponderende LLM-encoder gebruiken voor prompt-embedding. Hierdoor kan het uitlijnen van VLMs met diffusiedecoders worden vereenvoudigd door uitlijning met de LLM-decoder. Zonder complexe training en datasets maakt ThinkDiff effectief begrip, redeneren en componeren mogelijk in diffusiemodellen. Experimenten tonen aan dat ThinkDiff de nauwkeurigheid aanzienlijk verbetert van 19,2% naar 46,3% op de uitdagende CoBSAT benchmark voor multimodale in-context redeneergeneratie, met slechts 5 uur training op 4 A100 GPU's. Daarnaast toont ThinkDiff uitzonderlijke prestaties in het samenstellen van meerdere afbeeldingen en teksten tot logisch samenhangende afbeeldingen. Projectpagina: https://mizhenxing.github.io/ThinkDiff.

English

This paper presents ThinkDiff, a novel alignment paradigm that empowers text-to-image diffusion models with multimodal in-context understanding and reasoning capabilities by integrating the strengths of vision-language models (VLMs). Existing multimodal diffusion finetuning methods largely focus on pixel-level reconstruction rather than in-context reasoning, and are constrained by the complexity and limited availability of reasoning-based datasets. ThinkDiff addresses these challenges by leveraging vision-language training as a proxy task, aligning VLMs with the decoder of an encoder-decoder large language model (LLM) instead of a diffusion decoder. This proxy task builds on the observation that the LLM decoder shares the same input feature space with diffusion decoders that use the corresponding LLM encoder for prompt embedding. As a result, aligning VLMs with diffusion decoders can be simplified through alignment with the LLM decoder. Without complex training and datasets, ThinkDiff effectively unleashes understanding, reasoning, and composing capabilities in diffusion models. Experiments demonstrate that ThinkDiff significantly improves accuracy from 19.2% to 46.3% on the challenging CoBSAT benchmark for multimodal in-context reasoning generation, with only 5 hours of training on 4 A100 GPUs. Additionally, ThinkDiff demonstrates exceptional performance in composing multiple images and texts into logically coherent images. Project page: https://mizhenxing.github.io/ThinkDiff.

Ik Denk, Daarom Diffuseer Ik: Multimodale In-Context Redenering Mogelijk Maken in Diffusiemodellen

I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models

Samenvatting

Support