SRUM: Autorecompensa de Granularidad Fina para Modelos Multimodales Unificados

Resumen

Recientemente, se han logrado avances notables en los Modelos Multimodales Unificados (UMMs, por sus siglas en inglés), que integran capacidades de generación y comprensión de visión y lenguaje dentro de un único marco. Sin embargo, existe una brecha significativa en la que la fuerte comprensión visual de un modelo a menudo no se transfiere a su generación visual. Un modelo podría entender correctamente una imagen basándose en las instrucciones del usuario, pero ser incapaz de generar una imagen fiel a partir de indicaciones de texto. Este fenómeno plantea directamente una pregunta intrigante: ¿Puede un modelo lograr una automejora utilizando su módulo de comprensión para recompensar su módulo de generación? Para cerrar esta brecha y lograr la automejora, presentamos SRUM, un marco de posentrenamiento autorecompensante que puede aplicarse directamente a UMMs existentes de diversos diseños. SRUM crea un bucle de retroalimentación en el que el módulo de comprensión del modelo actúa como un "evaluador" interno, proporcionando señales correctivas para mejorar su módulo de generación, sin requerir datos adicionales etiquetados por humanos. Para garantizar que esta retroalimentación sea integral, diseñamos un sistema de recompensa dual global-local. Para abordar la complejidad estructural inherente de las imágenes, este sistema ofrece guía multiescala: una recompensa global asegura la corrección de la semántica visual general y el diseño, mientras que una recompensa local refina la fidelidad a nivel de objetos y detalles finos. SRUM conduce a capacidades potentes y muestra una fuerte generalización, mejorando el rendimiento en T2I-CompBench de 82.18 a 88.37 y en T2I-ReasonBench de 43.82 a 46.75. En general, nuestro trabajo establece un nuevo y poderoso paradigma para permitir que el módulo de comprensión de un UMM guíe y mejore su propia generación mediante la autorecompensa.

English

Recently, remarkable progress has been made in Unified Multimodal Models (UMMs), which integrate vision-language generation and understanding capabilities within a single framework. However, a significant gap exists where a model's strong visual understanding often fails to transfer to its visual generation. A model might correctly understand an image based on user instructions, yet be unable to generate a faithful image from text prompts. This phenomenon directly raises a compelling question: Can a model achieve self-improvement by using its understanding module to reward its generation module? To bridge this gap and achieve self-improvement, we introduce SRUM, a self-rewarding post-training framework that can be directly applied to existing UMMs of various designs. SRUM creates a feedback loop where the model's own understanding module acts as an internal ``evaluator'', providing corrective signals to improve its generation module, without requiring additional human-labeled data. To ensure this feedback is comprehensive, we designed a global-local dual reward system. To tackle the inherent structural complexity of images, this system offers multi-scale guidance: a global reward ensures the correctness of the overall visual semantics and layout, while a local reward refines fine-grained, object-level fidelity. SRUM leads to powerful capabilities and shows strong generalization, boosting performance on T2I-CompBench from 82.18 to 88.37 and on T2I-ReasonBench from 43.82 to 46.75. Overall, our work establishes a powerful new paradigm for enabling a UMMs' understanding module to guide and enhance its own generation via self-rewarding.

SRUM: Autorecompensa de Granularidad Fina para Modelos Multimodales Unificados

SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models

Resumen

Support