SRUM:統一マルチモーダルモデルのためのきめ細かい自己報酬付与
SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models
October 14, 2025
著者: Weiyang Jin, Yuwei Niu, Jiaqi Liao, Chengqi Duan, Aoxue Li, Shenghua Gao, Xihui Liu
cs.AI
要旨
近年、視覚と言語の生成および理解能力を単一のフレームワークに統合する統一マルチモーダルモデル(UMMs)において、顕著な進展が見られている。しかし、モデルの強力な視覚理解能力が視覚生成に必ずしも転移しないという大きなギャップが存在する。モデルはユーザーの指示に基づいて画像を正しく理解できる一方で、テキストプロンプトから忠実な画像を生成できない場合がある。この現象は、モデルが理解モジュールを用いて生成モジュールを報酬することで自己改善を達成できるか、という興味深い疑問を直接的に提起する。このギャップを埋め、自己改善を実現するため、我々はSRUM(Self-Rewarding Post-Training Framework)を提案する。SRUMは、既存のさまざまな設計のUMMsに直接適用可能な自己報酬型のポストトレーニングフレームワークであり、追加の人間によるラベルデータを必要とせず、モデル自身の理解モジュールが内部「評価者」として機能し、生成モジュールを改善するための修正信号を提供するフィードバックループを構築する。このフィードバックを包括的なものとするため、我々はグローバル-ローカルの二重報酬システムを設計した。画像の本質的な構造的複雑性に対処するため、このシステムはマルチスケールのガイダンスを提供する。グローバル報酬は全体の視覚的意味論とレイアウトの正確性を保証し、ローカル報酬は細粒度のオブジェクトレベルの忠実度を洗練する。SRUMは強力な能力を発揮し、高い汎化性能を示し、T2I-CompBenchにおける性能を82.18から88.37に、T2I-ReasonBenchにおける性能を43.82から46.75に向上させた。全体として、我々の研究は、UMMsの理解モジュールが自己報酬を通じて自身の生成を導き強化するための強力な新たなパラダイムを確立するものである。
English
Recently, remarkable progress has been made in Unified Multimodal Models
(UMMs), which integrate vision-language generation and understanding
capabilities within a single framework. However, a significant gap exists where
a model's strong visual understanding often fails to transfer to its visual
generation. A model might correctly understand an image based on user
instructions, yet be unable to generate a faithful image from text prompts.
This phenomenon directly raises a compelling question: Can a model achieve
self-improvement by using its understanding module to reward its generation
module? To bridge this gap and achieve self-improvement, we introduce SRUM, a
self-rewarding post-training framework that can be directly applied to existing
UMMs of various designs. SRUM creates a feedback loop where the model's own
understanding module acts as an internal ``evaluator'', providing corrective
signals to improve its generation module, without requiring additional
human-labeled data. To ensure this feedback is comprehensive, we designed a
global-local dual reward system. To tackle the inherent structural complexity
of images, this system offers multi-scale guidance: a global reward
ensures the correctness of the overall visual semantics and layout, while a
local reward refines fine-grained, object-level fidelity. SRUM leads
to powerful capabilities and shows strong generalization, boosting performance
on T2I-CompBench from 82.18 to 88.37 and on T2I-ReasonBench from 43.82
to 46.75. Overall, our work establishes a powerful new paradigm for
enabling a UMMs' understanding module to guide and enhance its own generation
via self-rewarding.