SRUM: Feinkörnige Selbstbelohnung für vereinheitlichte multimodale Modelle
SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models
October 14, 2025
papers.authors: Weiyang Jin, Yuwei Niu, Jiaqi Liao, Chengqi Duan, Aoxue Li, Shenghua Gao, Xihui Liu
cs.AI
papers.abstract
In jüngster Zeit wurden bemerkenswerte Fortschritte bei Unified Multimodal Models (UMMs) erzielt, die visuell-sprachliche Generierungs- und Verständnisfähigkeiten in einem einzigen Framework integrieren. Es besteht jedoch eine erhebliche Lücke, bei der das starke visuelle Verständnis eines Modells oft nicht auf seine visuelle Generierung übertragen wird. Ein Modell könnte ein Bild basierend auf Benutzeranweisungen korrekt verstehen, aber dennoch nicht in der Lage sein, ein treues Bild aus Textanweisungen zu generieren. Dieses Phänomen wirft direkt eine faszinierende Frage auf: Kann ein Modell durch die Nutzung seines Verständnismoduls zur Belohnung seines Generierungsmoduls eine Selbstverbesserung erreichen? Um diese Lücke zu schließen und Selbstverbesserung zu ermöglichen, führen wir SRUM ein, ein selbstbelohnendes Nachschulungs-Framework, das direkt auf bestehende UMMs verschiedener Designs angewendet werden kann. SRUM schafft eine Feedback-Schleife, in der das Verständnismodul des Modells als interner „Evaluator“ fungiert und korrigierende Signale zur Verbesserung des Generierungsmoduls liefert, ohne zusätzliche menschlich annotierte Daten zu benötigen. Um sicherzustellen, dass dieses Feedback umfassend ist, haben wir ein global-lokales duales Belohnungssystem entworfen. Um der inhärenten strukturellen Komplexität von Bildern gerecht zu werden, bietet dieses System eine mehrstufige Anleitung: Eine globale Belohnung stellt die Korrektheit der gesamten visuellen Semantik und des Layouts sicher, während eine lokale Belohnung die feinkörnige, objektbezogene Treue verfeinert. SRUM führt zu leistungsstarken Fähigkeiten und zeigt eine starke Generalisierung, die die Leistung auf T2I-CompBench von 82,18 auf 88,37 und auf T2I-ReasonBench von 43,82 auf 46,75 steigert. Insgesamt etabliert unsere Arbeit ein leistungsfähiges neues Paradigma, das es dem Verständnismodul eines UMMs ermöglicht, seine eigene Generierung durch Selbstbelohnung zu leiten und zu verbessern.
English
Recently, remarkable progress has been made in Unified Multimodal Models
(UMMs), which integrate vision-language generation and understanding
capabilities within a single framework. However, a significant gap exists where
a model's strong visual understanding often fails to transfer to its visual
generation. A model might correctly understand an image based on user
instructions, yet be unable to generate a faithful image from text prompts.
This phenomenon directly raises a compelling question: Can a model achieve
self-improvement by using its understanding module to reward its generation
module? To bridge this gap and achieve self-improvement, we introduce SRUM, a
self-rewarding post-training framework that can be directly applied to existing
UMMs of various designs. SRUM creates a feedback loop where the model's own
understanding module acts as an internal ``evaluator'', providing corrective
signals to improve its generation module, without requiring additional
human-labeled data. To ensure this feedback is comprehensive, we designed a
global-local dual reward system. To tackle the inherent structural complexity
of images, this system offers multi-scale guidance: a global reward
ensures the correctness of the overall visual semantics and layout, while a
local reward refines fine-grained, object-level fidelity. SRUM leads
to powerful capabilities and shows strong generalization, boosting performance
on T2I-CompBench from 82.18 to 88.37 and on T2I-ReasonBench from 43.82
to 46.75. Overall, our work establishes a powerful new paradigm for
enabling a UMMs' understanding module to guide and enhance its own generation
via self-rewarding.