Refinamiento mediante Regeneración: La Ampliación del Espacio de Modificación Potencia el Refinamiento de Imágenes en Modelos Multimodales Unificados
Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models
April 28, 2026
Autores: Jiayi Guo, Linqing Wang, Jiangshan Wang, Yang Yue, Zeyu Liu, Zhiyuan Zhao, Qinglin Lu, Gao Huang, Chunyu Wang
cs.AI
Resumen
Los modelos multimodales unificados (UMM) integran la comprensión y generación visual dentro de un único marco. Para las tareas de texto a imagen (T2I), esta capacidad unificada permite a los UMM refinar las salidas tras su generación inicial, extendiendo potencialmente el límite superior de rendimiento. Los métodos de refinamiento basados en UMM actuales siguen principalmente un paradigma de refinamiento mediante edición (RvE), donde los UMM producen instrucciones de edición para modificar regiones desalineadas preservando el contenido alineado. Sin embargo, las instrucciones de edición a menudo describen la desalineación entre texto e imagen solo de manera aproximada, conduciendo a un refinamiento incompleto. Además, la preservación a nivel de píxel, aunque necesaria para la edición, restringe innecesariamente el espacio de modificación efectivo para el refinamiento. Para abordar estas limitaciones, proponemos Refinamiento mediante Regeneración (RvR), un marco novedoso que reformula el refinamiento como regeneración de imagen condicional en lugar de edición. En lugar de depender de instrucciones de edición y aplicar una preservación de contenido estricta, RvR regenera imágenes condicionadas por el texto objetivo y los tokens semánticos de la imagen inicial, permitiendo una alineación semántica más completa con un espacio de modificación mayor. Experimentos exhaustivos demuestran la efectividad de RvR, mejorando Geneval de 0.78 a 0.91, DPGBench de 84.02 a 87.21 y UniGenBench++ de 61.53 a 77.41.
English
Unified multimodal models (UMMs) integrate visual understanding and generation within a single framework. For text-to-image (T2I) tasks, this unified capability allows UMMs to refine outputs after their initial generation, potentially extending the performance upper bound. Current UMM-based refinement methods primarily follow a refinement-via-editing (RvE) paradigm, where UMMs produce editing instructions to modify misaligned regions while preserving aligned content. However, editing instructions often describe prompt-image misalignment only coarsely, leading to incomplete refinement. Moreover, pixel-level preservation, though necessary for editing, unnecessarily restricts the effective modification space for refinement. To address these limitations, we propose Refinement via Regeneration (RvR), a novel framework that reformulates refinement as conditional image regeneration rather than editing. Instead of relying on editing instructions and enforcing strict content preservation, RvR regenerates images conditioned on the target prompt and the semantic tokens of the initial image, enabling more complete semantic alignment with a larger modification space. Extensive experiments demonstrate the effectiveness of RvR, improving Geneval from 0.78 to 0.91, DPGBench from 84.02 to 87.21, and UniGenBench++ from 61.53 to 77.41.