ChatPaper.aiChatPaper

UniRL: Modelli Multimodali Unificati con Auto-Miglioramento tramite Apprendimento Supervisionato e per Rinforzo

UniRL: Self-Improving Unified Multimodal Models via Supervised and Reinforcement Learning

May 29, 2025
Autori: Weijia Mao, Zhenheng Yang, Mike Zheng Shou
cs.AI

Abstract

Modelli linguistici multimodali unificati come Show-o e Janus hanno ottenuto prestazioni eccellenti sia nei compiti di generazione che di comprensione. Tuttavia, questi modelli si basano tipicamente su dataset su larga scala e richiedono un calcolo sostanziale durante la fase di pre-addestramento. Inoltre, sono stati proposti diversi metodi di post-addestramento, ma spesso dipendono da dati esterni o sono limitati a personalizzazioni specifiche per il compito. In questo lavoro, introduciamo UniRL, un approccio di post-addestramento auto-migliorante. Il nostro approccio consente al modello di generare immagini da prompt e di utilizzarle come dati di addestramento in ogni iterazione, senza fare affidamento su alcun dato immagine esterno. Inoltre, permette ai due compiti di migliorarsi reciprocamente: le immagini generate vengono utilizzate per la comprensione, e i risultati della comprensione vengono utilizzati per supervisionare la generazione. Esploriamo il fine-tuning supervisionato (SFT) e l'ottimizzazione delle politiche relative ai gruppi (GRPO) per ottimizzare i modelli. UniRL offre tre vantaggi chiave: (1) non richiede dati immagine esterni, poiché tutti i campioni di addestramento sono generati dal modello stesso durante l'addestramento; (2) non solo migliora le prestazioni individuali dei compiti, ma riduce anche lo squilibrio tra generazione e comprensione; e (3) richiede solo alcuni passaggi di addestramento aggiuntivi durante la fase di post-addestramento. Valutiamo UniRL su Show-o e Janus, ottenendo un punteggio GenEval di 0.77 per Show-o e 0.65 per Janus. Codice e modelli saranno rilasciati su https://github.com/showlab/UniRL.
English
Unified multimodal large language models such as Show-o and Janus have achieved strong performance across both generation and understanding tasks. However, these models typically rely on large-scale datasets and require substantial computation during the pretraining stage. In addition, several post-training methods have been proposed, but they often depend on external data or are limited to task-specific customization. In this work, we introduce UniRL, a self-improving post-training approach. Our approach enables the model to generate images from prompts and use them as training data in each iteration, without relying on any external image data. Moreover, it enables the two tasks to enhance each other: the generated images are used for understanding, and the understanding results are used to supervise generation. We explore supervised fine-tuning (SFT) and Group Relative Policy Optimization (GRPO) to optimize the models. UniRL offers three key advantages: (1) it requires no external image data, as all training samples are generated by the model itself during training; (2) it not only improves individual task performance, but also reduces the imbalance between generation and understanding; and (3) it requires only several additional training steps during the post-training stage. We evaluate UniRL on top of Show-o and Janus, achieving a GenEval score of 0.77 for Show-o and 0.65 for Janus. Code and models will be released in https://github.com/showlab/UniRL.
PDF232May 30, 2025