SRUM: Fijnmazige zelfbeloning voor verenigde multimodale modellen
SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models
October 14, 2025
Auteurs: Weiyang Jin, Yuwei Niu, Jiaqi Liao, Chengqi Duan, Aoxue Li, Shenghua Gao, Xihui Liu
cs.AI
Samenvatting
Onlangs is er opmerkelijke vooruitgang geboekt in Unified Multimodal Models (UMMs), die visueel-taalkundige generatie- en begripscapaciteiten integreren binnen een enkel raamwerk. Er bestaat echter een aanzienlijke kloof waarbij het sterke visuele begrip van een model vaak niet wordt doorvertaald naar zijn visuele generatie. Een model kan een afbeelding correct begrijpen op basis van gebruikersinstructies, maar toch niet in staat zijn een getrouwe afbeelding te genereren vanuit tekstprompts. Dit fenomeen roept direct een intrigerende vraag op: Kan een model zelfverbetering bereiken door zijn begripsmodule te gebruiken om zijn generatiemodule te belonen? Om deze kloof te overbruggen en zelfverbetering te realiseren, introduceren we SRUM, een zelfbelonend post-trainingsraamwerk dat direct kan worden toegepast op bestaande UMMs van verschillende ontwerpen. SRUM creëert een feedbacklus waarin de eigen begripsmodule van het model fungeert als een interne "evaluator", die corrigerende signalen levert om de generatiemodule te verbeteren, zonder dat er aanvullende door mensen gelabelde data nodig is. Om ervoor te zorgen dat deze feedback uitgebreid is, hebben we een globaal-lokaal dubbel beloningssysteem ontworpen. Om de inherente structurele complexiteit van afbeeldingen aan te pakken, biedt dit systeem begeleiding op meerdere schalen: een globale beloning zorgt voor de juistheid van de algehele visuele semantiek en lay-out, terwijl een lokale beloning de fijnmazige, objectniveau-getrouwheid verfijnt. SRUM leidt tot krachtige capaciteiten en toont sterke generalisatie, waarbij de prestaties op T2I-CompBench stijgen van 82,18 naar 88,37 en op T2I-ReasonBench van 43,82 naar 46,75. Over het geheel genomen vestigt ons werk een krachtig nieuw paradigma waarmee de begripsmodule van een UMM zijn eigen generatie kan begeleiden en verbeteren via zelfbeloning.
English
Recently, remarkable progress has been made in Unified Multimodal Models
(UMMs), which integrate vision-language generation and understanding
capabilities within a single framework. However, a significant gap exists where
a model's strong visual understanding often fails to transfer to its visual
generation. A model might correctly understand an image based on user
instructions, yet be unable to generate a faithful image from text prompts.
This phenomenon directly raises a compelling question: Can a model achieve
self-improvement by using its understanding module to reward its generation
module? To bridge this gap and achieve self-improvement, we introduce SRUM, a
self-rewarding post-training framework that can be directly applied to existing
UMMs of various designs. SRUM creates a feedback loop where the model's own
understanding module acts as an internal ``evaluator'', providing corrective
signals to improve its generation module, without requiring additional
human-labeled data. To ensure this feedback is comprehensive, we designed a
global-local dual reward system. To tackle the inherent structural complexity
of images, this system offers multi-scale guidance: a global reward
ensures the correctness of the overall visual semantics and layout, while a
local reward refines fine-grained, object-level fidelity. SRUM leads
to powerful capabilities and shows strong generalization, boosting performance
on T2I-CompBench from 82.18 to 88.37 and on T2I-ReasonBench from 43.82
to 46.75. Overall, our work establishes a powerful new paradigm for
enabling a UMMs' understanding module to guide and enhance its own generation
via self-rewarding.