Re-Align: Gestructureerde Redeneergestuurde Afstemming voor In-Context Beeldgeneratie en -bewerking

Samenvatting

In-context beeldgeneratie en -bewerking (ICGE) stelt gebruikers in staat visuele concepten te specificeren via vervlochten beeld-tekstprompts, wat een nauwkeurig begrip en getrouwe uitvoering van de gebruikersintentie vereist. Hoewel recente unificatie multimodale modellen veelbelovende begripscapaciteiten vertonen, slagen deze sterke punten er vaak niet in effectief door te stromen naar beeldgeneratie. Wij introduceren Re-Align, een uniform raamwerk dat de kloof tussen begrip en generatie overbrugt via gestructureerde, op redeneren gebaseerde alignering. De kern hiervan wordt gevormd door In-Context Chain-of-Thought (IC-CoT), een gestructureerd redeneerparadigma dat semantische begeleiding en referentie-associatie ontkoppelt, waardoor een duidelijke tekstuele doelstelling ontstaat en verwarring tussen referentiebeelden wordt verminderd. Bovendien introduceert Re-Align een effectief RL-trainingsschema dat gebruikmaakt van een surrogaatbeloning om de alignering tussen gestructureerde redeneertekst en het gegenereerde beeld te meten, waardoor de algehele prestaties van het model op ICGE-taken verbeteren. Uitgebreide experimenten bevestigen dat Re-Align superieure prestaties levert vergeleken met concurrerende methoden van vergelijkbare modelschaal en resources, zowel voor in-context beeldgeneratie als bewerkingstaken.

English

In-context image generation and editing (ICGE) enables users to specify visual concepts through interleaved image-text prompts, demanding precise understanding and faithful execution of user intent. Although recent unified multimodal models exhibit promising understanding capabilities, these strengths often fail to transfer effectively to image generation. We introduce Re-Align, a unified framework that bridges the gap between understanding and generation through structured reasoning-guided alignment. At its core lies the In-Context Chain-of-Thought (IC-CoT), a structured reasoning paradigm that decouples semantic guidance and reference association, providing clear textual target and mitigating confusion among reference images. Furthermore, Re-Align introduces an effective RL training scheme that leverages a surrogate reward to measure the alignment between structured reasoning text and the generated image, thereby improving the model's overall performance on ICGE tasks. Extensive experiments verify that Re-Align outperforms competitive methods of comparable model scale and resources on both in-context image generation and editing tasks.

Re-Align: Gestructureerde Redeneergestuurde Afstemming voor In-Context Beeldgeneratie en -bewerking

Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing

Samenvatting

Support