Pienso, luego difundo: Habilitando el razonamiento multimodal en contexto en modelos de difusión

Resumen

Este artículo presenta ThinkDiff, un novedoso paradigma de alineación que potencia a los modelos de difusión texto-imagen con capacidades de comprensión y razonamiento multimodal en contexto al integrar las fortalezas de los modelos visión-lenguaje (VLMs). Los métodos existentes de ajuste fino multimodal de difusión se centran principalmente en la reconstrucción a nivel de píxeles en lugar del razonamiento en contexto, y se ven limitados por la complejidad y la disponibilidad limitada de conjuntos de datos basados en razonamiento. ThinkDiff aborda estos desafíos aprovechando el entrenamiento visión-lenguaje como tarea proxy, alineando los VLMs con el decodificador de un modelo de lenguaje grande (LLM) codificador-decodificador en lugar de un decodificador de difusión. Esta tarea proxy se basa en la observación de que el decodificador LLM comparte el mismo espacio de características de entrada con los decodificadores de difusión que utilizan el codificador LLM correspondiente para la incrustación de indicaciones. Como resultado, la alineación de los VLMs con los decodificadores de difusión puede simplificarse a través de la alineación con el decodificador LLM. Sin necesidad de entrenamientos complejos y conjuntos de datos, ThinkDiff libera de manera efectiva las capacidades de comprensión, razonamiento y composición en los modelos de difusión. Los experimentos demuestran que ThinkDiff mejora significativamente la precisión del 19.2% al 46.3% en el desafiante banco de pruebas CoBSAT para generación de razonamiento multimodal en contexto, con solo 5 horas de entrenamiento en 4 GPUs A100. Además, ThinkDiff muestra un rendimiento excepcional en la composición de múltiples imágenes y textos en imágenes lógicamente coherentes. Página del proyecto: https://mizhenxing.github.io/ThinkDiff.

English

This paper presents ThinkDiff, a novel alignment paradigm that empowers text-to-image diffusion models with multimodal in-context understanding and reasoning capabilities by integrating the strengths of vision-language models (VLMs). Existing multimodal diffusion finetuning methods largely focus on pixel-level reconstruction rather than in-context reasoning, and are constrained by the complexity and limited availability of reasoning-based datasets. ThinkDiff addresses these challenges by leveraging vision-language training as a proxy task, aligning VLMs with the decoder of an encoder-decoder large language model (LLM) instead of a diffusion decoder. This proxy task builds on the observation that the LLM decoder shares the same input feature space with diffusion decoders that use the corresponding LLM encoder for prompt embedding. As a result, aligning VLMs with diffusion decoders can be simplified through alignment with the LLM decoder. Without complex training and datasets, ThinkDiff effectively unleashes understanding, reasoning, and composing capabilities in diffusion models. Experiments demonstrate that ThinkDiff significantly improves accuracy from 19.2% to 46.3% on the challenging CoBSAT benchmark for multimodal in-context reasoning generation, with only 5 hours of training on 4 A100 GPUs. Additionally, ThinkDiff demonstrates exceptional performance in composing multiple images and texts into logically coherent images. Project page: https://mizhenxing.github.io/ThinkDiff.

Pienso, luego difundo: Habilitando el razonamiento multimodal en contexto en modelos de difusión

I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models

Resumen

Support