SRUM: Autorecompensa de Granularidad Fina para Modelos Multimodales Unificados
SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models
October 14, 2025
Autores: Weiyang Jin, Yuwei Niu, Jiaqi Liao, Chengqi Duan, Aoxue Li, Shenghua Gao, Xihui Liu
cs.AI
Resumen
Recientemente, se han logrado avances notables en los Modelos Multimodales Unificados (UMMs, por sus siglas en inglés), que integran capacidades de generación y comprensión de visión y lenguaje dentro de un único marco. Sin embargo, existe una brecha significativa en la que la fuerte comprensión visual de un modelo a menudo no se transfiere a su generación visual. Un modelo podría entender correctamente una imagen basándose en las instrucciones del usuario, pero ser incapaz de generar una imagen fiel a partir de indicaciones de texto. Este fenómeno plantea directamente una pregunta intrigante: ¿Puede un modelo lograr una automejora utilizando su módulo de comprensión para recompensar su módulo de generación? Para cerrar esta brecha y lograr la automejora, presentamos SRUM, un marco de posentrenamiento autorecompensante que puede aplicarse directamente a UMMs existentes de diversos diseños. SRUM crea un bucle de retroalimentación en el que el módulo de comprensión del modelo actúa como un "evaluador" interno, proporcionando señales correctivas para mejorar su módulo de generación, sin requerir datos adicionales etiquetados por humanos. Para garantizar que esta retroalimentación sea integral, diseñamos un sistema de recompensa dual global-local. Para abordar la complejidad estructural inherente de las imágenes, este sistema ofrece guía multiescala: una recompensa global asegura la corrección de la semántica visual general y el diseño, mientras que una recompensa local refina la fidelidad a nivel de objetos y detalles finos. SRUM conduce a capacidades potentes y muestra una fuerte generalización, mejorando el rendimiento en T2I-CompBench de 82.18 a 88.37 y en T2I-ReasonBench de 43.82 a 46.75. En general, nuestro trabajo establece un nuevo y poderoso paradigma para permitir que el módulo de comprensión de un UMM guíe y mejore su propia generación mediante la autorecompensa.
English
Recently, remarkable progress has been made in Unified Multimodal Models
(UMMs), which integrate vision-language generation and understanding
capabilities within a single framework. However, a significant gap exists where
a model's strong visual understanding often fails to transfer to its visual
generation. A model might correctly understand an image based on user
instructions, yet be unable to generate a faithful image from text prompts.
This phenomenon directly raises a compelling question: Can a model achieve
self-improvement by using its understanding module to reward its generation
module? To bridge this gap and achieve self-improvement, we introduce SRUM, a
self-rewarding post-training framework that can be directly applied to existing
UMMs of various designs. SRUM creates a feedback loop where the model's own
understanding module acts as an internal ``evaluator'', providing corrective
signals to improve its generation module, without requiring additional
human-labeled data. To ensure this feedback is comprehensive, we designed a
global-local dual reward system. To tackle the inherent structural complexity
of images, this system offers multi-scale guidance: a global reward
ensures the correctness of the overall visual semantics and layout, while a
local reward refines fine-grained, object-level fidelity. SRUM leads
to powerful capabilities and shows strong generalization, boosting performance
on T2I-CompBench from 82.18 to 88.37 and on T2I-ReasonBench from 43.82
to 46.75. Overall, our work establishes a powerful new paradigm for
enabling a UMMs' understanding module to guide and enhance its own generation
via self-rewarding.