Penso, Logo Difundo: Habilitando o Raciocínio Multimodal em Contexto em Modelos de Difusão
I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models
February 12, 2025
Autores: Zhenxing Mi, Kuan-Chieh Wang, Guocheng Qian, Hanrong Ye, Runtao Liu, Sergey Tulyakov, Kfir Aberman, Dan Xu
cs.AI
Resumo
Este artigo apresenta o ThinkDiff, um novo paradigma de alinhamento que capacita modelos de difusão de texto para imagem com compreensão e raciocínio multimodal em contexto, integrando os pontos fortes dos modelos de visão e linguagem (VLMs). Os métodos existentes de ajuste fino de difusão multimodal concentram-se principalmente na reconstrução em nível de pixel, em vez de raciocínio em contexto, e são limitados pela complexidade e disponibilidade restrita de conjuntos de dados baseados em raciocínio. O ThinkDiff aborda esses desafios ao utilizar o treinamento de visão e linguagem como uma tarefa substituta, alinhando os VLMs com o decodificador de um modelo de linguagem grande (LLM) do tipo codificador-decodificador, em vez de um decodificador de difusão. Essa tarefa substituta baseia-se na observação de que o decodificador do LLM compartilha o mesmo espaço de características de entrada com os decodificadores de difusão que utilizam o codificador correspondente do LLM para incorporação de prompts. Como resultado, o alinhamento de VLMs com decodificadores de difusão pode ser simplificado por meio do alinhamento com o decodificador do LLM. Sem a necessidade de treinamentos complexos e grandes conjuntos de dados, o ThinkDiff libera efetivamente capacidades de compreensão, raciocínio e composição em modelos de difusão. Experimentos demonstram que o ThinkDiff melhora significativamente a precisão de 19,2% para 46,3% no desafiador benchmark CoBSAT para geração de raciocínio multimodal em contexto, com apenas 5 horas de treinamento em 4 GPUs A100. Além disso, o ThinkDiff demonstra desempenho excepcional na composição de múltiplas imagens e textos em imagens logicamente coerentes. Página do projeto: https://mizhenxing.github.io/ThinkDiff.
English
This paper presents ThinkDiff, a novel alignment paradigm that empowers
text-to-image diffusion models with multimodal in-context understanding and
reasoning capabilities by integrating the strengths of vision-language models
(VLMs). Existing multimodal diffusion finetuning methods largely focus on
pixel-level reconstruction rather than in-context reasoning, and are
constrained by the complexity and limited availability of reasoning-based
datasets. ThinkDiff addresses these challenges by leveraging vision-language
training as a proxy task, aligning VLMs with the decoder of an encoder-decoder
large language model (LLM) instead of a diffusion decoder. This proxy task
builds on the observation that the LLM decoder shares the same input
feature space with diffusion decoders that use the corresponding
LLM encoder for prompt embedding. As a result, aligning VLMs with
diffusion decoders can be simplified through alignment with the LLM decoder.
Without complex training and datasets, ThinkDiff effectively unleashes
understanding, reasoning, and composing capabilities in diffusion models.
Experiments demonstrate that ThinkDiff significantly improves accuracy from
19.2% to 46.3% on the challenging CoBSAT benchmark for multimodal in-context
reasoning generation, with only 5 hours of training on 4 A100 GPUs.
Additionally, ThinkDiff demonstrates exceptional performance in composing
multiple images and texts into logically coherent images. Project page:
https://mizhenxing.github.io/ThinkDiff.Summary
AI-Generated Summary