Re-Align: Alinhamento Guiado por Raciocínio Estruturado para Geração e Edição de Imagens em Contexto

Resumo

A geração e edição de imagens em contexto (ICGE) permite que os usuários especifiquem conceitos visuais por meio de prompts intercalados de imagem e texto, exigindo uma compreensão precisa e uma execução fiel da intenção do usuário. Embora os modelos multimodais unificados recentes exibam capacidades de compreensão promissoras, esses pontos fortes frequentemente não são transferidos de forma eficaz para a geração de imagens. Apresentamos o Re-Align, uma estrutura unificada que preenche a lacuna entre compreensão e geração por meio de um alinhamento guiado por raciocínio estruturado. Em seu núcleo está a Cadeia de Pensamento em Contexto (IC-CoT), um paradigma de raciocínio estruturado que desacopla a orientação semântica e a associação de referência, fornecendo um alvo textual claro e mitigando a confusão entre imagens de referência. Além disso, o Re-Align introduz um esquema eficaz de treinamento por RL que aproveita uma recompensa substituta para medir o alinhamento entre o texto de raciocínio estruturado e a imagem gerada, melhorando assim o desempenho geral do modelo em tarefas de ICGE. Experimentos extensivos verificam que o Re-Align supera métodos competitivos de escala e recursos de modelo comparáveis tanto em tarefas de geração quanto de edição de imagens em contexto.

English

In-context image generation and editing (ICGE) enables users to specify visual concepts through interleaved image-text prompts, demanding precise understanding and faithful execution of user intent. Although recent unified multimodal models exhibit promising understanding capabilities, these strengths often fail to transfer effectively to image generation. We introduce Re-Align, a unified framework that bridges the gap between understanding and generation through structured reasoning-guided alignment. At its core lies the In-Context Chain-of-Thought (IC-CoT), a structured reasoning paradigm that decouples semantic guidance and reference association, providing clear textual target and mitigating confusion among reference images. Furthermore, Re-Align introduces an effective RL training scheme that leverages a surrogate reward to measure the alignment between structured reasoning text and the generated image, thereby improving the model's overall performance on ICGE tasks. Extensive experiments verify that Re-Align outperforms competitive methods of comparable model scale and resources on both in-context image generation and editing tasks.