ChatPaper.aiChatPaper

SRUM: Autorrecompensa de Alta Granularidade para Modelos Multimodais Unificados

SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models

October 14, 2025
Autores: Weiyang Jin, Yuwei Niu, Jiaqi Liao, Chengqi Duan, Aoxue Li, Shenghua Gao, Xihui Liu
cs.AI

Resumo

Recentemente, foram feitos progressos notáveis em Modelos Multimodais Unificados (UMMs), que integram capacidades de geração e compreensão visão-linguagem em um único framework. No entanto, existe uma lacuna significativa em que a forte compreensão visual de um modelo muitas vezes não se transfere para sua geração visual. Um modelo pode entender corretamente uma imagem com base nas instruções do usuário, mas ser incapaz de gerar uma imagem fiel a partir de prompts de texto. Esse fenômeno levanta diretamente uma questão intrigante: Um modelo pode alcançar autoaperfeiçoamento usando seu módulo de compreensão para recompensar seu módulo de geração? Para preencher essa lacuna e alcançar o autoaperfeiçoamento, introduzimos o SRUM, um framework de pós-treinamento autorrecompensador que pode ser aplicado diretamente a UMMs existentes de diversos designs. O SRUM cria um ciclo de feedback em que o próprio módulo de compreensão do modelo atua como um "avaliador" interno, fornecendo sinais corretivos para melhorar seu módulo de geração, sem a necessidade de dados adicionais rotulados por humanos. Para garantir que esse feedback seja abrangente, projetamos um sistema de recompensa dual global-local. Para lidar com a complexidade estrutural inerente das imagens, esse sistema oferece orientação em múltiplas escalas: uma recompensa global garante a correção da semântica visual geral e do layout, enquanto uma recompensa local refina a fidelidade em nível de objeto, com detalhes refinados. O SRUM resulta em capacidades poderosas e mostra forte generalização, aumentando o desempenho no T2I-CompBench de 82,18 para 88,37 e no T2I-ReasonBench de 43,82 para 46,75. No geral, nosso trabalho estabelece um novo paradigma poderoso para permitir que o módulo de compreensão de um UMM oriente e aprimore sua própria geração por meio de autorrecompensa.
English
Recently, remarkable progress has been made in Unified Multimodal Models (UMMs), which integrate vision-language generation and understanding capabilities within a single framework. However, a significant gap exists where a model's strong visual understanding often fails to transfer to its visual generation. A model might correctly understand an image based on user instructions, yet be unable to generate a faithful image from text prompts. This phenomenon directly raises a compelling question: Can a model achieve self-improvement by using its understanding module to reward its generation module? To bridge this gap and achieve self-improvement, we introduce SRUM, a self-rewarding post-training framework that can be directly applied to existing UMMs of various designs. SRUM creates a feedback loop where the model's own understanding module acts as an internal ``evaluator'', providing corrective signals to improve its generation module, without requiring additional human-labeled data. To ensure this feedback is comprehensive, we designed a global-local dual reward system. To tackle the inherent structural complexity of images, this system offers multi-scale guidance: a global reward ensures the correctness of the overall visual semantics and layout, while a local reward refines fine-grained, object-level fidelity. SRUM leads to powerful capabilities and shows strong generalization, boosting performance on T2I-CompBench from 82.18 to 88.37 and on T2I-ReasonBench from 43.82 to 46.75. Overall, our work establishes a powerful new paradigm for enabling a UMMs' understanding module to guide and enhance its own generation via self-rewarding.
PDF203February 7, 2026