Verfijning via Regeneratie: Uitbreiding van de Modificatieruimte Verbetert Beeldverfijning in Geïntegreerde Multimodale Modellen

Samenvatting

Geünificeerde multimodale modellen (UMM's) integreren visueel begrip en -generatie binnen een enkel raamwerk. Voor tekst-naar-beeld (T2I) taken stelt deze geünificeerde capaciteit UMM's in staat om uitvoer te verfijnen na de initiële generatie, wat de bovengrens van de prestaties mogelijk kan verleggen. Huidige op UMM's gebaseerde verfijningsmethoden volgen voornamelijk een *refinement-via-editing* (RvE) paradigma, waarbij UMM's bewerkingsinstructies genereren om niet-overeenkomende regio's aan te passen terwijl correct uitgelijnde inhoud behouden blijft. Bewerkingsinstructies beschrijven de misalignering tussen prompt en beeld echter vaak slechts in grove lijnen, wat leidt tot onvolledige verfijning. Bovendien beperkt pixelbehoud, hoewel noodzakelijk voor bewerking, de effectieve modificatieruimte voor verfijning onnodig. Om deze beperkingen aan te pakken, stellen wij *Refinement via Regeneration* (RvR) voor, een nieuw raamwerk dat verfijning herformuleert als conditionele beeldregeneratie in plaats van bewerking. In plaats van te vertrouwen op bewerkingsinstructies en strikte inhoudsbehoud af te dwingen, regenereert RvR beelden conditioneel op basis van de doelprompt en de semantieke tokens van het initiële beeld, waardoor een volledigere semantieke uitlijning met een grotere modificatieruimte mogelijk wordt. Uitgebreide experimenten tonen de effectiviteit van RvR aan, met verbeteringen van Geneval van 0,78 naar 0,91, DPGBench van 84,02 naar 87,21, en UniGenBench++ van 61,53 naar 77,41.

English

Unified multimodal models (UMMs) integrate visual understanding and generation within a single framework. For text-to-image (T2I) tasks, this unified capability allows UMMs to refine outputs after their initial generation, potentially extending the performance upper bound. Current UMM-based refinement methods primarily follow a refinement-via-editing (RvE) paradigm, where UMMs produce editing instructions to modify misaligned regions while preserving aligned content. However, editing instructions often describe prompt-image misalignment only coarsely, leading to incomplete refinement. Moreover, pixel-level preservation, though necessary for editing, unnecessarily restricts the effective modification space for refinement. To address these limitations, we propose Refinement via Regeneration (RvR), a novel framework that reformulates refinement as conditional image regeneration rather than editing. Instead of relying on editing instructions and enforcing strict content preservation, RvR regenerates images conditioned on the target prompt and the semantic tokens of the initial image, enabling more complete semantic alignment with a larger modification space. Extensive experiments demonstrate the effectiveness of RvR, improving Geneval from 0.78 to 0.91, DPGBench from 84.02 to 87.21, and UniGenBench++ from 61.53 to 77.41.

Verfijning via Regeneratie: Uitbreiding van de Modificatieruimte Verbetert Beeldverfijning in Geïntegreerde Multimodale Modellen

Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models

Samenvatting

Support