ChatPaper.aiChatPaper

UniRL: Selbstverbessernde, einheitliche multimodale Modelle durch überwachtes und verstärkendes Lernen

UniRL: Self-Improving Unified Multimodal Models via Supervised and Reinforcement Learning

May 29, 2025
Autoren: Weijia Mao, Zhenheng Yang, Mike Zheng Shou
cs.AI

Zusammenfassung

Einheitliche multimodale Large Language Models wie Show-o und Janus haben starke Leistungen sowohl bei Generierungs- als auch bei Verständnisaufgaben erzielt. Diese Modelle basieren jedoch typischerweise auf groß angelegten Datensätzen und erfordern erhebliche Rechenleistung während der Vortrainingsphase. Darüber hinaus wurden mehrere Nachtrainingsmethoden vorgeschlagen, die jedoch oft auf externe Daten angewiesen sind oder auf aufgabenspezifische Anpassungen beschränkt sind. In dieser Arbeit stellen wir UniRL vor, einen selbstverbessernden Nachtrainingsansatz. Unser Ansatz ermöglicht es dem Modell, Bilder aus Eingabeaufforderungen zu generieren und diese in jeder Iteration als Trainingsdaten zu verwenden, ohne auf externe Bilddaten angewiesen zu sein. Darüber hinaus ermöglicht er, dass die beiden Aufgaben sich gegenseitig verbessern: die generierten Bilder werden für das Verständnis verwendet, und die Verständnisergebnisse dienen der Überwachung der Generierung. Wir untersuchen Supervised Fine-Tuning (SFT) und Group Relative Policy Optimization (GRPO), um die Modelle zu optimieren. UniRL bietet drei wesentliche Vorteile: (1) Es werden keine externen Bilddaten benötigt, da alle Trainingsbeispiele während des Trainings vom Modell selbst generiert werden; (2) Es verbessert nicht nur die Leistung einzelner Aufgaben, sondern verringert auch das Ungleichgewicht zwischen Generierung und Verständnis; und (3) Es sind nur wenige zusätzliche Trainingsschritte während der Nachtrainingsphase erforderlich. Wir evaluieren UniRL auf Basis von Show-o und Janus und erreichen einen GenEval-Score von 0,77 für Show-o und 0,65 für Janus. Code und Modelle werden unter https://github.com/showlab/UniRL veröffentlicht.
English
Unified multimodal large language models such as Show-o and Janus have achieved strong performance across both generation and understanding tasks. However, these models typically rely on large-scale datasets and require substantial computation during the pretraining stage. In addition, several post-training methods have been proposed, but they often depend on external data or are limited to task-specific customization. In this work, we introduce UniRL, a self-improving post-training approach. Our approach enables the model to generate images from prompts and use them as training data in each iteration, without relying on any external image data. Moreover, it enables the two tasks to enhance each other: the generated images are used for understanding, and the understanding results are used to supervise generation. We explore supervised fine-tuning (SFT) and Group Relative Policy Optimization (GRPO) to optimize the models. UniRL offers three key advantages: (1) it requires no external image data, as all training samples are generated by the model itself during training; (2) it not only improves individual task performance, but also reduces the imbalance between generation and understanding; and (3) it requires only several additional training steps during the post-training stage. We evaluate UniRL on top of Show-o and Janus, achieving a GenEval score of 0.77 for Show-o and 0.65 for Janus. Code and models will be released in https://github.com/showlab/UniRL.

Summary

AI-Generated Summary

PDF232May 30, 2025