Pienso, luego difundo: Habilitando el razonamiento multimodal en contexto en modelos de difusión
I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models
February 12, 2025
Autores: Zhenxing Mi, Kuan-Chieh Wang, Guocheng Qian, Hanrong Ye, Runtao Liu, Sergey Tulyakov, Kfir Aberman, Dan Xu
cs.AI
Resumen
Este artículo presenta ThinkDiff, un novedoso paradigma de alineación que potencia a los modelos de difusión texto-imagen con capacidades de comprensión y razonamiento multimodal en contexto al integrar las fortalezas de los modelos visión-lenguaje (VLMs). Los métodos existentes de ajuste fino multimodal de difusión se centran principalmente en la reconstrucción a nivel de píxeles en lugar del razonamiento en contexto, y se ven limitados por la complejidad y la disponibilidad limitada de conjuntos de datos basados en razonamiento. ThinkDiff aborda estos desafíos aprovechando el entrenamiento visión-lenguaje como tarea proxy, alineando los VLMs con el decodificador de un modelo de lenguaje grande (LLM) codificador-decodificador en lugar de un decodificador de difusión. Esta tarea proxy se basa en la observación de que el decodificador LLM comparte el mismo espacio de características de entrada con los decodificadores de difusión que utilizan el codificador LLM correspondiente para la incrustación de indicaciones. Como resultado, la alineación de los VLMs con los decodificadores de difusión puede simplificarse a través de la alineación con el decodificador LLM. Sin necesidad de entrenamientos complejos y conjuntos de datos, ThinkDiff libera de manera efectiva las capacidades de comprensión, razonamiento y composición en los modelos de difusión. Los experimentos demuestran que ThinkDiff mejora significativamente la precisión del 19.2% al 46.3% en el desafiante banco de pruebas CoBSAT para generación de razonamiento multimodal en contexto, con solo 5 horas de entrenamiento en 4 GPUs A100. Además, ThinkDiff muestra un rendimiento excepcional en la composición de múltiples imágenes y textos en imágenes lógicamente coherentes. Página del proyecto: https://mizhenxing.github.io/ThinkDiff.
English
This paper presents ThinkDiff, a novel alignment paradigm that empowers
text-to-image diffusion models with multimodal in-context understanding and
reasoning capabilities by integrating the strengths of vision-language models
(VLMs). Existing multimodal diffusion finetuning methods largely focus on
pixel-level reconstruction rather than in-context reasoning, and are
constrained by the complexity and limited availability of reasoning-based
datasets. ThinkDiff addresses these challenges by leveraging vision-language
training as a proxy task, aligning VLMs with the decoder of an encoder-decoder
large language model (LLM) instead of a diffusion decoder. This proxy task
builds on the observation that the LLM decoder shares the same input
feature space with diffusion decoders that use the corresponding
LLM encoder for prompt embedding. As a result, aligning VLMs with
diffusion decoders can be simplified through alignment with the LLM decoder.
Without complex training and datasets, ThinkDiff effectively unleashes
understanding, reasoning, and composing capabilities in diffusion models.
Experiments demonstrate that ThinkDiff significantly improves accuracy from
19.2% to 46.3% on the challenging CoBSAT benchmark for multimodal in-context
reasoning generation, with only 5 hours of training on 4 A100 GPUs.
Additionally, ThinkDiff demonstrates exceptional performance in composing
multiple images and texts into logically coherent images. Project page:
https://mizhenxing.github.io/ThinkDiff.Summary
AI-Generated Summary