SRUM : Auto-récompense granulaire pour des modèles multimodaux unifiés
SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models
October 14, 2025
papers.authors: Weiyang Jin, Yuwei Niu, Jiaqi Liao, Chengqi Duan, Aoxue Li, Shenghua Gao, Xihui Liu
cs.AI
papers.abstract
Récemment, des progrès remarquables ont été réalisés dans les Modèles Multimodaux Unifiés (MMU), qui intègrent des capacités de génération et de compréhension vision-langage au sein d'un même cadre. Cependant, un écart significatif persiste : la compréhension visuelle robuste d'un modèle ne se traduit souvent pas en une génération visuelle efficace. Un modèle peut correctement comprendre une image sur la base des instructions de l'utilisateur, mais être incapable de générer une image fidèle à partir de prompts textuels. Ce phénomène soulève directement une question intrigante : Un modèle peut-il s'auto-améliorer en utilisant son module de compréhension pour récompenser son module de génération ? Pour combler cet écart et parvenir à l'auto-amélioration, nous introduisons SRUM, un cadre de post-formation auto-récompensant qui peut être directement appliqué à des MMU existants de diverses conceptions. SRUM crée une boucle de rétroaction où le module de compréhension du modèle agit comme un « évaluateur » interne, fournissant des signaux correctifs pour améliorer son module de génération, sans nécessiter de données supplémentaires étiquetées par des humains. Pour garantir que cette rétroaction soit exhaustive, nous avons conçu un système de récompense duale globale-locale. Pour aborder la complexité structurelle inhérente des images, ce système offre un guidage multi-échelle : une récompense globale assure la justesse de la sémantique visuelle globale et de la disposition, tandis qu'une récompense locale affine la fidélité fine, au niveau des objets. SRUM confère des capacités puissantes et montre une forte généralisation, améliorant les performances sur T2I-CompBench de 82,18 à 88,37 et sur T2I-ReasonBench de 43,82 à 46,75. Globalement, notre travail établit un nouveau paradigme puissant permettant au module de compréhension d'un MMU de guider et d'améliorer sa propre génération via l'auto-récompense.
English
Recently, remarkable progress has been made in Unified Multimodal Models
(UMMs), which integrate vision-language generation and understanding
capabilities within a single framework. However, a significant gap exists where
a model's strong visual understanding often fails to transfer to its visual
generation. A model might correctly understand an image based on user
instructions, yet be unable to generate a faithful image from text prompts.
This phenomenon directly raises a compelling question: Can a model achieve
self-improvement by using its understanding module to reward its generation
module? To bridge this gap and achieve self-improvement, we introduce SRUM, a
self-rewarding post-training framework that can be directly applied to existing
UMMs of various designs. SRUM creates a feedback loop where the model's own
understanding module acts as an internal ``evaluator'', providing corrective
signals to improve its generation module, without requiring additional
human-labeled data. To ensure this feedback is comprehensive, we designed a
global-local dual reward system. To tackle the inherent structural complexity
of images, this system offers multi-scale guidance: a global reward
ensures the correctness of the overall visual semantics and layout, while a
local reward refines fine-grained, object-level fidelity. SRUM leads
to powerful capabilities and shows strong generalization, boosting performance
on T2I-CompBench from 82.18 to 88.37 and on T2I-ReasonBench from 43.82
to 46.75. Overall, our work establishes a powerful new paradigm for
enabling a UMMs' understanding module to guide and enhance its own generation
via self-rewarding.