Ich denke, also ich verbreite: Ermöglichung multimodaler kontextbezogener Schlussfolgerungen in Diffusionsmodellen
I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models
February 12, 2025
Autoren: Zhenxing Mi, Kuan-Chieh Wang, Guocheng Qian, Hanrong Ye, Runtao Liu, Sergey Tulyakov, Kfir Aberman, Dan Xu
cs.AI
Zusammenfassung
Dieses Paper präsentiert ThinkDiff, ein neuartiges Ausrichtungsparadigma, das Text-zu-Bild-Diffusionsmodelle mit multimodalem Kontextverständnis und Argumentationsfähigkeiten durch die Integration der Stärken von Bildsprachmodellen (VLMs) ausstattet. Bestehende multimodale Diffusionsfeinabstimmungsmethoden konzentrieren sich weitgehend auf die Pixel-Ebene der Rekonstruktion anstelle von kontextbezogener Argumentation und sind durch die Komplexität und begrenzte Verfügbarkeit von auf Argumentation basierenden Datensätzen eingeschränkt. ThinkDiff begegnet diesen Herausforderungen, indem es das Bildsprachtraining als Platzhalteraufgabe nutzt, um VLMs mit dem Decoder eines Encoder-Decoder-Modells mit großer Sprachmodellkapazität (LLM) anstelle eines Diffusionsdecoders auszurichten. Diese Platzhalteraufgabe baut auf der Beobachtung auf, dass der Decoder des LLM denselben Eingabefeature-Raum mit Diffusionsdecodern teilt, die den entsprechenden LLM-Encoder für die Prompt-Einbettung verwenden. Dadurch kann die Ausrichtung von VLMs mit Diffusionsdecodern durch die Ausrichtung mit dem LLM-Decoder vereinfacht werden. Ohne komplexe Schulungen und Datensätze entfesselt ThinkDiff effektiv Verständnis-, Argumentations- und Kompositions-fähigkeiten in Diffusionsmodellen. Experimente zeigen, dass ThinkDiff die Genauigkeit auf der anspruchsvollen CoBSAT-Benchmark für multimodale kontextbezogene Argumentationsgenerierung signifikant von 19,2 % auf 46,3 % verbessert, mit nur 5 Stunden Training auf 4 A100-GPUs. Darüber hinaus zeigt ThinkDiff eine außergewöhnliche Leistung bei der Komposition mehrerer Bilder und Texte zu logisch kohärenten Bildern. Projektpage: https://mizhenxing.github.io/ThinkDiff.
English
This paper presents ThinkDiff, a novel alignment paradigm that empowers
text-to-image diffusion models with multimodal in-context understanding and
reasoning capabilities by integrating the strengths of vision-language models
(VLMs). Existing multimodal diffusion finetuning methods largely focus on
pixel-level reconstruction rather than in-context reasoning, and are
constrained by the complexity and limited availability of reasoning-based
datasets. ThinkDiff addresses these challenges by leveraging vision-language
training as a proxy task, aligning VLMs with the decoder of an encoder-decoder
large language model (LLM) instead of a diffusion decoder. This proxy task
builds on the observation that the LLM decoder shares the same input
feature space with diffusion decoders that use the corresponding
LLM encoder for prompt embedding. As a result, aligning VLMs with
diffusion decoders can be simplified through alignment with the LLM decoder.
Without complex training and datasets, ThinkDiff effectively unleashes
understanding, reasoning, and composing capabilities in diffusion models.
Experiments demonstrate that ThinkDiff significantly improves accuracy from
19.2% to 46.3% on the challenging CoBSAT benchmark for multimodal in-context
reasoning generation, with only 5 hours of training on 4 A100 GPUs.
Additionally, ThinkDiff demonstrates exceptional performance in composing
multiple images and texts into logically coherent images. Project page:
https://mizhenxing.github.io/ThinkDiff.Summary
AI-Generated Summary