UniRL: Zelfverbeterende geünificeerde multimodale modellen via begeleid en versterkend leren
UniRL: Self-Improving Unified Multimodal Models via Supervised and Reinforcement Learning
May 29, 2025
Auteurs: Weijia Mao, Zhenheng Yang, Mike Zheng Shou
cs.AI
Samenvatting
Unified multimodale grote taalmodellen zoals Show-o en Janus hebben sterke prestaties behaald in zowel generatie- als begripstaken. Deze modellen zijn echter doorgaans afhankelijk van grootschalige datasets en vereisen aanzienlijke rekenkracht tijdens de pretrainingsfase. Daarnaast zijn verschillende post-trainingsmethoden voorgesteld, maar deze zijn vaak afhankelijk van externe data of beperkt tot taakspecifieke aanpassingen. In dit werk introduceren we UniRL, een zelfverbeterende post-trainingsaanpak. Onze aanpak stelt het model in staat om afbeeldingen te genereren vanuit prompts en deze als trainingsdata te gebruiken in elke iteratie, zonder afhankelijk te zijn van externe beelddata. Bovendien maakt het de twee taken mogelijk om elkaar te versterken: de gegenereerde afbeeldingen worden gebruikt voor begrip, en de begripsresultaten worden gebruikt om de generatie te begeleiden. We onderzoeken supervised fine-tuning (SFT) en Group Relative Policy Optimization (GRPO) om de modellen te optimaliseren. UniRL biedt drie belangrijke voordelen: (1) het vereist geen externe beelddata, aangezien alle trainingsvoorbeelden door het model zelf worden gegenereerd tijdens de training; (2) het verbetert niet alleen de prestaties van individuele taken, maar vermindert ook de onbalans tussen generatie en begrip; en (3) het vereist slechts enkele aanvullende trainingsstappen tijdens de post-trainingsfase. We evalueren UniRL op basis van Show-o en Janus, waarbij we een GenEval-score van 0.77 behalen voor Show-o en 0.65 voor Janus. Code en modellen zullen worden vrijgegeven op https://github.com/showlab/UniRL.
English
Unified multimodal large language models such as Show-o and Janus have
achieved strong performance across both generation and understanding tasks.
However, these models typically rely on large-scale datasets and require
substantial computation during the pretraining stage. In addition, several
post-training methods have been proposed, but they often depend on external
data or are limited to task-specific customization. In this work, we introduce
UniRL, a self-improving post-training approach. Our approach enables the model
to generate images from prompts and use them as training data in each
iteration, without relying on any external image data. Moreover, it enables the
two tasks to enhance each other: the generated images are used for
understanding, and the understanding results are used to supervise generation.
We explore supervised fine-tuning (SFT) and Group Relative Policy Optimization
(GRPO) to optimize the models. UniRL offers three key advantages: (1) it
requires no external image data, as all training samples are generated by the
model itself during training; (2) it not only improves individual task
performance, but also reduces the imbalance between generation and
understanding; and (3) it requires only several additional training steps
during the post-training stage. We evaluate UniRL on top of Show-o and Janus,
achieving a GenEval score of 0.77 for Show-o and 0.65 for Janus. Code and
models will be released in https://github.com/showlab/UniRL.