SRUM: 통합 멀티모달 모델을 위한 세분화된 자기 보상 기법
SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models
October 14, 2025
저자: Weiyang Jin, Yuwei Niu, Jiaqi Liao, Chengqi Duan, Aoxue Li, Shenghua Gao, Xihui Liu
cs.AI
초록
최근, 시각-언어 생성 및 이해 능력을 단일 프레임워크 내에서 통합하는 통합 멀티모달 모델(Unified Multimodal Models, UMMs)에서 주목할 만한 발전이 이루어졌습니다. 그러나 모델의 강력한 시각 이해 능력이 시각 생성 능력으로 전환되지 못하는 상당한 격차가 존재합니다. 모델은 사용자 지시에 따라 이미지를 정확히 이해할 수 있지만, 텍스트 프롬프트로부터 충실한 이미지를 생성하지 못할 수 있습니다. 이 현상은 직접적으로 다음과 같은 흥미로운 질문을 제기합니다: 모델이 이해 모듈을 사용하여 생성 모듈을 보상함으로써 자기 개선을 달성할 수 있을까요? 이 격차를 해소하고 자기 개선을 달성하기 위해, 우리는 다양한 설계의 기존 UMMs에 직접 적용할 수 있는 자기 보상 사후 학습 프레임워크인 SRUM을 소개합니다. SRUM은 모델의 이해 모듈이 내부 "평가자" 역할을 하여 추가적인 인간 레이블 데이터 없이 생성 모듈을 개선하기 위한 교정 신호를 제공하는 피드백 루프를 생성합니다. 이 피드백이 포괄적이도록, 우리는 전역-지역 이중 보상 시스템을 설계했습니다. 이미지의 내재적 구조적 복잡성을 해결하기 위해, 이 시스템은 다중 스케일 지침을 제공합니다: 전역 보상은 전체 시각적 의미론과 레이아웃의 정확성을 보장하고, 지역 보상은 세밀한 객체 수준의 충실도를 개선합니다. SRUM은 강력한 능력을 이끌어내며 강한 일반화를 보여주어, T2I-CompBench에서 82.18에서 88.37로, T2I-ReasonBench에서 43.82에서 46.75로 성능을 향상시켰습니다. 전반적으로, 우리의 작업은 UMMs의 이해 모듈이 자기 보상을 통해 자체 생성을 지도하고 강화할 수 있는 강력한 새로운 패러다임을 확립했습니다.
English
Recently, remarkable progress has been made in Unified Multimodal Models
(UMMs), which integrate vision-language generation and understanding
capabilities within a single framework. However, a significant gap exists where
a model's strong visual understanding often fails to transfer to its visual
generation. A model might correctly understand an image based on user
instructions, yet be unable to generate a faithful image from text prompts.
This phenomenon directly raises a compelling question: Can a model achieve
self-improvement by using its understanding module to reward its generation
module? To bridge this gap and achieve self-improvement, we introduce SRUM, a
self-rewarding post-training framework that can be directly applied to existing
UMMs of various designs. SRUM creates a feedback loop where the model's own
understanding module acts as an internal ``evaluator'', providing corrective
signals to improve its generation module, without requiring additional
human-labeled data. To ensure this feedback is comprehensive, we designed a
global-local dual reward system. To tackle the inherent structural complexity
of images, this system offers multi-scale guidance: a global reward
ensures the correctness of the overall visual semantics and layout, while a
local reward refines fine-grained, object-level fidelity. SRUM leads
to powerful capabilities and shows strong generalization, boosting performance
on T2I-CompBench from 82.18 to 88.37 and on T2I-ReasonBench from 43.82
to 46.75. Overall, our work establishes a powerful new paradigm for
enabling a UMMs' understanding module to guide and enhance its own generation
via self-rewarding.