SRUM: Тонкая самовознаграждающая система для унифицированных мультимодальных моделей
SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models
October 14, 2025
Авторы: Weiyang Jin, Yuwei Niu, Jiaqi Liao, Chengqi Duan, Aoxue Li, Shenghua Gao, Xihui Liu
cs.AI
Аннотация
В последнее время был достигнут значительный прогресс в области унифицированных мультимодальных моделей (UMMs), которые объединяют возможности генерации и понимания визуально-текстовой информации в рамках единой структуры. Однако существует заметный разрыв, при котором сильное визуальное понимание модели часто не переносится на её способность к визуальной генерации. Модель может корректно понимать изображение на основе инструкций пользователя, но при этом быть неспособной сгенерировать точное изображение из текстовых запросов. Это явление напрямую поднимает важный вопрос: может ли модель достичь самосовершенствования, используя свой модуль понимания для поощрения модуля генерации? Чтобы преодолеть этот разрыв и достичь самосовершенствования, мы представляем SRUM — посттренировочную структуру с самопоощрением, которая может быть непосредственно применена к существующим UMMs различных архитектур. SRUM создает цикл обратной связи, в котором модуль понимания модели выступает в роли внутреннего «оценщика», предоставляя корректирующие сигналы для улучшения модуля генерации, без необходимости в дополнительных данных, размеченных человеком. Чтобы обеспечить полноту этой обратной связи, мы разработали систему двойного поощрения на глобальном и локальном уровнях. Для решения присущей изображениям структурной сложности эта система предлагает многоуровневое руководство: глобальное поощрение гарантирует корректность общей визуальной семантики и композиции, а локальное поощрение улучшает детализированную, объектную точность. SRUM демонстрирует мощные возможности и сильную обобщаемость, повышая производительность на T2I-CompBench с 82.18 до 88.37 и на T2I-ReasonBench с 43.82 до 46.75. В целом, наша работа устанавливает новую мощную парадигму, позволяющую модулю понимания UMMs направлять и улучшать собственную генерацию через самопоощрение.
English
Recently, remarkable progress has been made in Unified Multimodal Models
(UMMs), which integrate vision-language generation and understanding
capabilities within a single framework. However, a significant gap exists where
a model's strong visual understanding often fails to transfer to its visual
generation. A model might correctly understand an image based on user
instructions, yet be unable to generate a faithful image from text prompts.
This phenomenon directly raises a compelling question: Can a model achieve
self-improvement by using its understanding module to reward its generation
module? To bridge this gap and achieve self-improvement, we introduce SRUM, a
self-rewarding post-training framework that can be directly applied to existing
UMMs of various designs. SRUM creates a feedback loop where the model's own
understanding module acts as an internal ``evaluator'', providing corrective
signals to improve its generation module, without requiring additional
human-labeled data. To ensure this feedback is comprehensive, we designed a
global-local dual reward system. To tackle the inherent structural complexity
of images, this system offers multi-scale guidance: a global reward
ensures the correctness of the overall visual semantics and layout, while a
local reward refines fine-grained, object-level fidelity. SRUM leads
to powerful capabilities and shows strong generalization, boosting performance
on T2I-CompBench from 82.18 to 88.37 and on T2I-ReasonBench from 43.82
to 46.75. Overall, our work establishes a powerful new paradigm for
enabling a UMMs' understanding module to guide and enhance its own generation
via self-rewarding.