ChatPaper.aiChatPaper

UniRL: Modelos Multimodales Unificados de Auto-mejora mediante Aprendizaje Supervisado y por Refuerzo

UniRL: Self-Improving Unified Multimodal Models via Supervised and Reinforcement Learning

May 29, 2025
Autores: Weijia Mao, Zhenheng Yang, Mike Zheng Shou
cs.AI

Resumen

Los modelos unificados de lenguaje multimodal de gran escala, como Show-o y Janus, han logrado un rendimiento sólido tanto en tareas de generación como de comprensión. Sin embargo, estos modelos suelen depender de conjuntos de datos a gran escala y requieren un considerable poder de cómputo durante la etapa de preentrenamiento. Además, se han propuesto varios métodos de posentrenamiento, pero a menudo dependen de datos externos o se limitan a personalizaciones específicas para tareas concretas. En este trabajo, presentamos UniRL, un enfoque de posentrenamiento de auto-mejora. Nuestro método permite que el modelo genere imágenes a partir de indicaciones y las utilice como datos de entrenamiento en cada iteración, sin depender de ningún dato de imagen externo. Además, permite que las dos tareas se refuercen mutuamente: las imágenes generadas se utilizan para la comprensión, y los resultados de la comprensión se emplean para supervisar la generación. Exploramos el ajuste fino supervisado (SFT) y la Optimización de Política Relativa de Grupo (GRPO) para optimizar los modelos. UniRL ofrece tres ventajas clave: (1) no requiere datos de imagen externos, ya que todas las muestras de entrenamiento son generadas por el propio modelo durante el entrenamiento; (2) no solo mejora el rendimiento individual de las tareas, sino que también reduce el desequilibrio entre generación y comprensión; y (3) requiere solo unos pocos pasos adicionales de entrenamiento durante la etapa de posentrenamiento. Evaluamos UniRL sobre Show-o y Janus, obteniendo una puntuación GenEval de 0.77 para Show-o y 0.65 para Janus. El código y los modelos se publicarán en https://github.com/showlab/UniRL.
English
Unified multimodal large language models such as Show-o and Janus have achieved strong performance across both generation and understanding tasks. However, these models typically rely on large-scale datasets and require substantial computation during the pretraining stage. In addition, several post-training methods have been proposed, but they often depend on external data or are limited to task-specific customization. In this work, we introduce UniRL, a self-improving post-training approach. Our approach enables the model to generate images from prompts and use them as training data in each iteration, without relying on any external image data. Moreover, it enables the two tasks to enhance each other: the generated images are used for understanding, and the understanding results are used to supervise generation. We explore supervised fine-tuning (SFT) and Group Relative Policy Optimization (GRPO) to optimize the models. UniRL offers three key advantages: (1) it requires no external image data, as all training samples are generated by the model itself during training; (2) it not only improves individual task performance, but also reduces the imbalance between generation and understanding; and (3) it requires only several additional training steps during the post-training stage. We evaluate UniRL on top of Show-o and Janus, achieving a GenEval score of 0.77 for Show-o and 0.65 for Janus. Code and models will be released in https://github.com/showlab/UniRL.

Summary

AI-Generated Summary

PDF232May 30, 2025