SRUM: Fijnmazige zelfbeloning voor verenigde multimodale modellen

Samenvatting

Onlangs is er opmerkelijke vooruitgang geboekt in Unified Multimodal Models (UMMs), die visueel-taalkundige generatie- en begripscapaciteiten integreren binnen een enkel raamwerk. Er bestaat echter een aanzienlijke kloof waarbij het sterke visuele begrip van een model vaak niet wordt doorvertaald naar zijn visuele generatie. Een model kan een afbeelding correct begrijpen op basis van gebruikersinstructies, maar toch niet in staat zijn een getrouwe afbeelding te genereren vanuit tekstprompts. Dit fenomeen roept direct een intrigerende vraag op: Kan een model zelfverbetering bereiken door zijn begripsmodule te gebruiken om zijn generatiemodule te belonen? Om deze kloof te overbruggen en zelfverbetering te realiseren, introduceren we SRUM, een zelfbelonend post-trainingsraamwerk dat direct kan worden toegepast op bestaande UMMs van verschillende ontwerpen. SRUM creëert een feedbacklus waarin de eigen begripsmodule van het model fungeert als een interne "evaluator", die corrigerende signalen levert om de generatiemodule te verbeteren, zonder dat er aanvullende door mensen gelabelde data nodig is. Om ervoor te zorgen dat deze feedback uitgebreid is, hebben we een globaal-lokaal dubbel beloningssysteem ontworpen. Om de inherente structurele complexiteit van afbeeldingen aan te pakken, biedt dit systeem begeleiding op meerdere schalen: een globale beloning zorgt voor de juistheid van de algehele visuele semantiek en lay-out, terwijl een lokale beloning de fijnmazige, objectniveau-getrouwheid verfijnt. SRUM leidt tot krachtige capaciteiten en toont sterke generalisatie, waarbij de prestaties op T2I-CompBench stijgen van 82,18 naar 88,37 en op T2I-ReasonBench van 43,82 naar 46,75. Over het geheel genomen vestigt ons werk een krachtig nieuw paradigma waarmee de begripsmodule van een UMM zijn eigen generatie kan begeleiden en verbeteren via zelfbeloning.

English

Recently, remarkable progress has been made in Unified Multimodal Models (UMMs), which integrate vision-language generation and understanding capabilities within a single framework. However, a significant gap exists where a model's strong visual understanding often fails to transfer to its visual generation. A model might correctly understand an image based on user instructions, yet be unable to generate a faithful image from text prompts. This phenomenon directly raises a compelling question: Can a model achieve self-improvement by using its understanding module to reward its generation module? To bridge this gap and achieve self-improvement, we introduce SRUM, a self-rewarding post-training framework that can be directly applied to existing UMMs of various designs. SRUM creates a feedback loop where the model's own understanding module acts as an internal ``evaluator'', providing corrective signals to improve its generation module, without requiring additional human-labeled data. To ensure this feedback is comprehensive, we designed a global-local dual reward system. To tackle the inherent structural complexity of images, this system offers multi-scale guidance: a global reward ensures the correctness of the overall visual semantics and layout, while a local reward refines fine-grained, object-level fidelity. SRUM leads to powerful capabilities and shows strong generalization, boosting performance on T2I-CompBench from 82.18 to 88.37 and on T2I-ReasonBench from 43.82 to 46.75. Overall, our work establishes a powerful new paradigm for enabling a UMMs' understanding module to guide and enhance its own generation via self-rewarding.

SRUM: Fijnmazige zelfbeloning voor verenigde multimodale modellen

SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models

Samenvatting

Support