ChatPaper.aiChatPaper

SRUM: Auto-ricompensa a Grana Fine per Modelli Multimodali Unificati

SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models

October 14, 2025
Autori: Weiyang Jin, Yuwei Niu, Jiaqi Liao, Chengqi Duan, Aoxue Li, Shenghua Gao, Xihui Liu
cs.AI

Abstract

Recentemente, sono stati compiuti progressi significativi nei Modelli Multimodali Unificati (UMM), che integrano capacità di generazione e comprensione visivo-linguistica all'interno di un unico framework. Tuttavia, esiste un divario significativo in cui la forte comprensione visiva di un modello spesso non si trasferisce alla sua generazione visiva. Un modello potrebbe comprendere correttamente un'immagine in base alle istruzioni dell'utente, ma essere incapace di generare un'immagine fedele a partire da prompt testuali. Questo fenomeno solleva direttamente una domanda intrigante: un modello può raggiungere l'auto-miglioramento utilizzando il suo modulo di comprensione per premiare il suo modulo di generazione? Per colmare questo divario e raggiungere l'auto-miglioramento, introduciamo SRUM, un framework di post-addestramento auto-premiante che può essere applicato direttamente a UMM esistenti di vari design. SRUM crea un ciclo di feedback in cui il modulo di comprensione del modello agisce come un "valutatore" interno, fornendo segnali correttivi per migliorare il suo modulo di generazione, senza richiedere dati aggiuntivi etichettati dall'uomo. Per garantire che questo feedback sia completo, abbiamo progettato un sistema di ricompensa duale globale-locale. Per affrontare la complessità strutturale intrinseca delle immagini, questo sistema offre una guida multi-scala: una ricompensa globale garantisce la correttezza della semantica visiva complessiva e del layout, mentre una ricompensa locale affina la fedeltà a livello di oggetto, dettagliata. SRUM porta a capacità potenti e mostra una forte generalizzazione, migliorando le prestazioni su T2I-CompBench da 82.18 a 88.37 e su T2I-ReasonBench da 43.82 a 46.75. Nel complesso, il nostro lavoro stabilisce un nuovo paradigma potente per consentire al modulo di comprensione di un UMM di guidare e migliorare la propria generazione attraverso l'auto-premiazione.
English
Recently, remarkable progress has been made in Unified Multimodal Models (UMMs), which integrate vision-language generation and understanding capabilities within a single framework. However, a significant gap exists where a model's strong visual understanding often fails to transfer to its visual generation. A model might correctly understand an image based on user instructions, yet be unable to generate a faithful image from text prompts. This phenomenon directly raises a compelling question: Can a model achieve self-improvement by using its understanding module to reward its generation module? To bridge this gap and achieve self-improvement, we introduce SRUM, a self-rewarding post-training framework that can be directly applied to existing UMMs of various designs. SRUM creates a feedback loop where the model's own understanding module acts as an internal ``evaluator'', providing corrective signals to improve its generation module, without requiring additional human-labeled data. To ensure this feedback is comprehensive, we designed a global-local dual reward system. To tackle the inherent structural complexity of images, this system offers multi-scale guidance: a global reward ensures the correctness of the overall visual semantics and layout, while a local reward refines fine-grained, object-level fidelity. SRUM leads to powerful capabilities and shows strong generalization, boosting performance on T2I-CompBench from 82.18 to 88.37 and on T2I-ReasonBench from 43.82 to 46.75. Overall, our work establishes a powerful new paradigm for enabling a UMMs' understanding module to guide and enhance its own generation via self-rewarding.
PDF193October 15, 2025