UniRL : Modèles Multimodaux Unifiés Auto-Améliorés via Apprentissage Supervisé et par Renforcement
UniRL: Self-Improving Unified Multimodal Models via Supervised and Reinforcement Learning
May 29, 2025
Auteurs: Weijia Mao, Zhenheng Yang, Mike Zheng Shou
cs.AI
Résumé
Les modèles de langage multimodal unifiés tels que Show-o et Janus ont démontré des performances solides à la fois pour les tâches de génération et de compréhension. Cependant, ces modèles reposent généralement sur des jeux de données à grande échelle et nécessitent des ressources de calcul importantes lors de la phase de pré-entraînement. De plus, plusieurs méthodes post-entraînement ont été proposées, mais elles dépendent souvent de données externes ou se limitent à des personnalisations spécifiques à une tâche. Dans ce travail, nous introduisons UniRL, une approche post-entraînement auto-améliorante. Notre méthode permet au modèle de générer des images à partir de prompts et de les utiliser comme données d'entraînement à chaque itération, sans recourir à des données d'images externes. Par ailleurs, elle permet aux deux tâches de s'améliorer mutuellement : les images générées sont utilisées pour la compréhension, et les résultats de compréhension servent à superviser la génération. Nous explorons le fine-tuning supervisé (SFT) et l'optimisation de politique relative par groupe (GRPO) pour optimiser les modèles. UniRL offre trois avantages clés : (1) elle ne nécessite aucune donnée d'image externe, car tous les échantillons d'entraînement sont générés par le modèle lui-même pendant l'entraînement ; (2) elle améliore non seulement les performances individuelles des tâches, mais réduit également le déséquilibre entre génération et compréhension ; et (3) elle ne nécessite que quelques étapes d'entraînement supplémentaires lors de la phase post-entraînement. Nous évaluons UniRL sur Show-o et Janus, obtenant un score GenEval de 0,77 pour Show-o et 0,65 pour Janus. Le code et les modèles seront disponibles sur https://github.com/showlab/UniRL.
English
Unified multimodal large language models such as Show-o and Janus have
achieved strong performance across both generation and understanding tasks.
However, these models typically rely on large-scale datasets and require
substantial computation during the pretraining stage. In addition, several
post-training methods have been proposed, but they often depend on external
data or are limited to task-specific customization. In this work, we introduce
UniRL, a self-improving post-training approach. Our approach enables the model
to generate images from prompts and use them as training data in each
iteration, without relying on any external image data. Moreover, it enables the
two tasks to enhance each other: the generated images are used for
understanding, and the understanding results are used to supervise generation.
We explore supervised fine-tuning (SFT) and Group Relative Policy Optimization
(GRPO) to optimize the models. UniRL offers three key advantages: (1) it
requires no external image data, as all training samples are generated by the
model itself during training; (2) it not only improves individual task
performance, but also reduces the imbalance between generation and
understanding; and (3) it requires only several additional training steps
during the post-training stage. We evaluate UniRL on top of Show-o and Janus,
achieving a GenEval score of 0.77 for Show-o and 0.65 for Janus. Code and
models will be released in https://github.com/showlab/UniRL.Summary
AI-Generated Summary