Refinamento via Regeneração: Ampliar o Espaço de Modificação Impulsiona o Refinamento de Imagem em Modelos Multimodais Unificados

Resumo

Os modelos multimodais unificados (UMMs) integram a compreensão e geração visual dentro de uma única estrutura. Para tarefas de texto-para-imagem (T2I), essa capacidade unificada permite que os UMMs refinem as saídas após sua geração inicial, potencialmente elevando o limite máximo de desempenho. Os métodos de refinamento atuais baseados em UMM seguem principalmente um paradigma de refinamento-via-edição (RvE), no qual os UMMs produzem instruções de edição para modificar regiões desalinhadas enquanto preservam o conteúdo alinhado. No entanto, as instruções de edição frequentemente descrevem o desalinhamento entre o prompt e a imagem apenas de forma grosseira, levando a um refinamento incompleto. Além disso, a preservação em nível de pixel, embora necessária para edição, restringe desnecessariamente o espaço de modificação efetiva para refinamento. Para superar essas limitações, propomos o Refinamento via Regeneração (RvR), uma nova estrutura que reformula o refinamento como regeneração condicional de imagem em vez de edição. Em vez de depender de instruções de edição e impor preservação estrita de conteúdo, o RvR regenera imagens condicionadas pelo prompt alvo e pelos tokens semânticos da imagem inicial, permitindo um alinhamento semântico mais completo com um espaço de modificação maior. Experimentos extensivos demonstram a eficácia do RvR, melhorando o Geneval de 0,78 para 0,91, o DPGBench de 84,02 para 87,21 e o UniGenBench++ de 61,53 para 77,41.

English

Unified multimodal models (UMMs) integrate visual understanding and generation within a single framework. For text-to-image (T2I) tasks, this unified capability allows UMMs to refine outputs after their initial generation, potentially extending the performance upper bound. Current UMM-based refinement methods primarily follow a refinement-via-editing (RvE) paradigm, where UMMs produce editing instructions to modify misaligned regions while preserving aligned content. However, editing instructions often describe prompt-image misalignment only coarsely, leading to incomplete refinement. Moreover, pixel-level preservation, though necessary for editing, unnecessarily restricts the effective modification space for refinement. To address these limitations, we propose Refinement via Regeneration (RvR), a novel framework that reformulates refinement as conditional image regeneration rather than editing. Instead of relying on editing instructions and enforcing strict content preservation, RvR regenerates images conditioned on the target prompt and the semantic tokens of the initial image, enabling more complete semantic alignment with a larger modification space. Extensive experiments demonstrate the effectiveness of RvR, improving Geneval from 0.78 to 0.91, DPGBench from 84.02 to 87.21, and UniGenBench++ from 61.53 to 77.41.

Refinamento via Regeneração: Ampliar o Espaço de Modificação Impulsiona o Refinamento de Imagem em Modelos Multimodais Unificados

Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models

Resumo

Support