Je pense, donc je diffuse : permettre le raisonnement multimodal en contexte dans les modèles de diffusion
I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models
February 12, 2025
Auteurs: Zhenxing Mi, Kuan-Chieh Wang, Guocheng Qian, Hanrong Ye, Runtao Liu, Sergey Tulyakov, Kfir Aberman, Dan Xu
cs.AI
Résumé
Cet article présente ThinkDiff, un nouveau paradigme d'alignement qui renforce les modèles de diffusion texte-image avec des capacités de compréhension et de raisonnement multimodales en contexte en intégrant les forces des modèles vision-langage (VLM). Les méthodes existantes de finetuning multimodal de diffusion se concentrent largement sur la reconstruction au niveau des pixels plutôt que sur le raisonnement en contexte, et sont limitées par la complexité et la disponibilité limitée des ensembles de données basés sur le raisonnement. ThinkDiff relève ces défis en exploitant l'entraînement vision-langage comme tâche proxy, en alignant les VLM avec le décodeur d'un modèle de langage large encodeur-décodeur (LLM) au lieu d'un décodeur de diffusion. Cette tâche proxy repose sur l'observation que le décodeur LLM partage le même espace de caractéristiques d'entrée avec les décodeurs de diffusion qui utilisent le même encodeur LLM correspondant pour l'incorporation de l'invite. En conséquence, l'alignement des VLM avec les décodeurs de diffusion peut être simplifié par l'alignement avec le décodeur LLM. Sans entraînement complexe et ensembles de données, ThinkDiff libère efficacement les capacités de compréhension, de raisonnement et de composition dans les modèles de diffusion. Les expériences montrent que ThinkDiff améliore significativement la précision de 19,2% à 46,3% sur le difficile benchmark CoBSAT pour la génération de raisonnement multimodal en contexte, avec seulement 5 heures d'entraînement sur 4 GPU A100. De plus, ThinkDiff démontre des performances exceptionnelles dans la composition de plusieurs images et textes en images logiquement cohérentes. Page du projet : https://mizhenxing.github.io/ThinkDiff.
English
This paper presents ThinkDiff, a novel alignment paradigm that empowers
text-to-image diffusion models with multimodal in-context understanding and
reasoning capabilities by integrating the strengths of vision-language models
(VLMs). Existing multimodal diffusion finetuning methods largely focus on
pixel-level reconstruction rather than in-context reasoning, and are
constrained by the complexity and limited availability of reasoning-based
datasets. ThinkDiff addresses these challenges by leveraging vision-language
training as a proxy task, aligning VLMs with the decoder of an encoder-decoder
large language model (LLM) instead of a diffusion decoder. This proxy task
builds on the observation that the LLM decoder shares the same input
feature space with diffusion decoders that use the corresponding
LLM encoder for prompt embedding. As a result, aligning VLMs with
diffusion decoders can be simplified through alignment with the LLM decoder.
Without complex training and datasets, ThinkDiff effectively unleashes
understanding, reasoning, and composing capabilities in diffusion models.
Experiments demonstrate that ThinkDiff significantly improves accuracy from
19.2% to 46.3% on the challenging CoBSAT benchmark for multimodal in-context
reasoning generation, with only 5 hours of training on 4 A100 GPUs.
Additionally, ThinkDiff demonstrates exceptional performance in composing
multiple images and texts into logically coherent images. Project page:
https://mizhenxing.github.io/ThinkDiff.Summary
AI-Generated Summary