Raffinement par Régénération : Élargir l'Espace de Modification Stimule le Raffinement d'Image dans les Modèles Multimodaux Unifiés

Résumé

Les modèles multimodaux unifiés (UMM) intègrent la compréhension et la génération visuelles au sein d'un même cadre. Pour les tâches de texte-à-image (T2I), cette capacité unifiée permet aux UMM d'affiner les sorties après leur génération initiale, repoussant potentiellement la limite supérieure des performances. Les méthodes de raffinement actuelles basées sur les UMM suivent principalement un paradigme de raffinement par édition (RvE), où les UMM produisent des instructions d'édition pour modifier les régions non alignées tout en préservant le contenu aligné. Cependant, les instructions d'édition décrivent souvent le désalignement entre l'invite et l'image de manière trop grossière, conduisant à un raffinement incomplet. De plus, la préservation au niveau pixel, bien que nécessaire pour l'édition, restreint inutilement l'espace de modification efficace pour le raffinement. Pour remédier à ces limitations, nous proposons le Raffinement par Régénération (RvR), un nouveau cadre qui reformule le raffinement comme une régénération d'image conditionnelle plutôt que comme une édition. Au lieu de s'appuyer sur des instructions d'édition et d'imposer une préservation stricte du contenu, le RvR régénère les images conditionnellement à l'invite cible et aux jetons sémantiques de l'image initiale, permettant un alignement sémantique plus complet avec un espace de modification plus large. Des expériences approfondies démontrent l'efficacité du RvR, améliorant Geneval de 0,78 à 0,91, DPGBench de 84,02 à 87,21, et UniGenBench++ de 61,53 à 77,41.

English

Unified multimodal models (UMMs) integrate visual understanding and generation within a single framework. For text-to-image (T2I) tasks, this unified capability allows UMMs to refine outputs after their initial generation, potentially extending the performance upper bound. Current UMM-based refinement methods primarily follow a refinement-via-editing (RvE) paradigm, where UMMs produce editing instructions to modify misaligned regions while preserving aligned content. However, editing instructions often describe prompt-image misalignment only coarsely, leading to incomplete refinement. Moreover, pixel-level preservation, though necessary for editing, unnecessarily restricts the effective modification space for refinement. To address these limitations, we propose Refinement via Regeneration (RvR), a novel framework that reformulates refinement as conditional image regeneration rather than editing. Instead of relying on editing instructions and enforcing strict content preservation, RvR regenerates images conditioned on the target prompt and the semantic tokens of the initial image, enabling more complete semantic alignment with a larger modification space. Extensive experiments demonstrate the effectiveness of RvR, improving Geneval from 0.78 to 0.91, DPGBench from 84.02 to 87.21, and UniGenBench++ from 61.53 to 77.41.

Raffinement par Régénération : Élargir l'Espace de Modification Stimule le Raffinement d'Image dans les Modèles Multimodaux Unifiés

Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models

Résumé

Support