UniRL: Modelos Multimodais Unificados de Autoaprimoramento por meio de Aprendizado Supervisionado e por Reforço
UniRL: Self-Improving Unified Multimodal Models via Supervised and Reinforcement Learning
May 29, 2025
Autores: Weijia Mao, Zhenheng Yang, Mike Zheng Shou
cs.AI
Resumo
Modelos de linguagem multimodal unificados, como Show-o e Janus, alcançaram um desempenho robusto tanto em tarefas de geração quanto de compreensão. No entanto, esses modelos geralmente dependem de conjuntos de dados em grande escala e exigem um poder computacional substancial durante a etapa de pré-treinamento. Além disso, vários métodos de pós-treinamento foram propostos, mas frequentemente dependem de dados externos ou são limitados à personalização específica de tarefas. Neste trabalho, apresentamos o UniRL, uma abordagem de pós-treinamento de autoaperfeiçoamento. Nossa abordagem permite que o modelo gere imagens a partir de prompts e as utilize como dados de treinamento em cada iteração, sem depender de nenhum dado de imagem externo. Além disso, ela possibilita que as duas tarefas se aprimorem mutuamente: as imagens geradas são usadas para compreensão, e os resultados da compreensão são usados para supervisionar a geração. Exploramos o ajuste fino supervisionado (SFT) e a Otimização de Política Relativa em Grupo (GRPO) para otimizar os modelos. O UniRL oferece três vantagens principais: (1) não requer dados de imagem externos, pois todas as amostras de treinamento são geradas pelo próprio modelo durante o treinamento; (2) não apenas melhora o desempenho individual das tarefas, mas também reduz o desequilíbrio entre geração e compreensão; e (3) requer apenas algumas etapas adicionais de treinamento durante a fase de pós-treinamento. Avaliamos o UniRL sobre os modelos Show-o e Janus, alcançando uma pontuação GenEval de 0,77 para o Show-o e 0,65 para o Janus. O código e os modelos serão disponibilizados em https://github.com/showlab/UniRL.
English
Unified multimodal large language models such as Show-o and Janus have
achieved strong performance across both generation and understanding tasks.
However, these models typically rely on large-scale datasets and require
substantial computation during the pretraining stage. In addition, several
post-training methods have been proposed, but they often depend on external
data or are limited to task-specific customization. In this work, we introduce
UniRL, a self-improving post-training approach. Our approach enables the model
to generate images from prompts and use them as training data in each
iteration, without relying on any external image data. Moreover, it enables the
two tasks to enhance each other: the generated images are used for
understanding, and the understanding results are used to supervise generation.
We explore supervised fine-tuning (SFT) and Group Relative Policy Optimization
(GRPO) to optimize the models. UniRL offers three key advantages: (1) it
requires no external image data, as all training samples are generated by the
model itself during training; (2) it not only improves individual task
performance, but also reduces the imbalance between generation and
understanding; and (3) it requires only several additional training steps
during the post-training stage. We evaluate UniRL on top of Show-o and Janus,
achieving a GenEval score of 0.77 for Show-o and 0.65 for Janus. Code and
models will be released in https://github.com/showlab/UniRL.