UniRL: Самообучающиеся унифицированные мультимодальные модели через обучение с учителем и обучение с подкреплением
UniRL: Self-Improving Unified Multimodal Models via Supervised and Reinforcement Learning
May 29, 2025
Авторы: Weijia Mao, Zhenheng Yang, Mike Zheng Shou
cs.AI
Аннотация
Унифицированные мультимодальные большие языковые модели, такие как Show-o и Janus, демонстрируют высокую производительность как в задачах генерации, так и в задачах понимания. Однако такие модели обычно требуют масштабных наборов данных и значительных вычислительных ресурсов на этапе предварительного обучения. Кроме того, было предложено несколько методов пост-обучения, но они часто зависят от внешних данных или ограничиваются специфической настройкой под конкретные задачи. В данной работе мы представляем UniRL — подход к пост-обучению с самосовершенствованием. Наш подход позволяет модели генерировать изображения на основе текстовых запросов и использовать их в качестве обучающих данных на каждой итерации, не полагаясь на внешние данные изображений. Более того, он позволяет двум задачам усиливать друг друга: сгенерированные изображения используются для понимания, а результаты понимания используются для контроля генерации. Мы исследуем методы контролируемого тонкого настройки (SFT) и оптимизации групповой относительной политики (GRPO) для оптимизации моделей. UniRL предлагает три ключевых преимущества: (1) он не требует внешних данных изображений, так как все обучающие выборки генерируются самой моделью в процессе обучения; (2) он не только улучшает производительность отдельных задач, но и снижает дисбаланс между генерацией и пониманием; (3) он требует лишь нескольких дополнительных шагов обучения на этапе пост-обучения. Мы оцениваем UniRL на основе моделей Show-o и Janus, достигая показателя GenEval 0.77 для Show-o и 0.65 для Janus. Код и модели будут доступны по адресу https://github.com/showlab/UniRL.
English
Unified multimodal large language models such as Show-o and Janus have
achieved strong performance across both generation and understanding tasks.
However, these models typically rely on large-scale datasets and require
substantial computation during the pretraining stage. In addition, several
post-training methods have been proposed, but they often depend on external
data or are limited to task-specific customization. In this work, we introduce
UniRL, a self-improving post-training approach. Our approach enables the model
to generate images from prompts and use them as training data in each
iteration, without relying on any external image data. Moreover, it enables the
two tasks to enhance each other: the generated images are used for
understanding, and the understanding results are used to supervise generation.
We explore supervised fine-tuning (SFT) and Group Relative Policy Optimization
(GRPO) to optimize the models. UniRL offers three key advantages: (1) it
requires no external image data, as all training samples are generated by the
model itself during training; (2) it not only improves individual task
performance, but also reduces the imbalance between generation and
understanding; and (3) it requires only several additional training steps
during the post-training stage. We evaluate UniRL on top of Show-o and Janus,
achieving a GenEval score of 0.77 for Show-o and 0.65 for Janus. Code and
models will be released in https://github.com/showlab/UniRL.Summary
AI-Generated Summary