UniRL: Самообучающиеся унифицированные мультимодальные модели через обучение с учителем и обучение с подкреплением

Аннотация

Унифицированные мультимодальные большие языковые модели, такие как Show-o и Janus, демонстрируют высокую производительность как в задачах генерации, так и в задачах понимания. Однако такие модели обычно требуют масштабных наборов данных и значительных вычислительных ресурсов на этапе предварительного обучения. Кроме того, было предложено несколько методов пост-обучения, но они часто зависят от внешних данных или ограничиваются специфической настройкой под конкретные задачи. В данной работе мы представляем UniRL — подход к пост-обучению с самосовершенствованием. Наш подход позволяет модели генерировать изображения на основе текстовых запросов и использовать их в качестве обучающих данных на каждой итерации, не полагаясь на внешние данные изображений. Более того, он позволяет двум задачам усиливать друг друга: сгенерированные изображения используются для понимания, а результаты понимания используются для контроля генерации. Мы исследуем методы контролируемого тонкого настройки (SFT) и оптимизации групповой относительной политики (GRPO) для оптимизации моделей. UniRL предлагает три ключевых преимущества: (1) он не требует внешних данных изображений, так как все обучающие выборки генерируются самой моделью в процессе обучения; (2) он не только улучшает производительность отдельных задач, но и снижает дисбаланс между генерацией и пониманием; (3) он требует лишь нескольких дополнительных шагов обучения на этапе пост-обучения. Мы оцениваем UniRL на основе моделей Show-o и Janus, достигая показателя GenEval 0.77 для Show-o и 0.65 для Janus. Код и модели будут доступны по адресу https://github.com/showlab/UniRL.

English

Unified multimodal large language models such as Show-o and Janus have achieved strong performance across both generation and understanding tasks. However, these models typically rely on large-scale datasets and require substantial computation during the pretraining stage. In addition, several post-training methods have been proposed, but they often depend on external data or are limited to task-specific customization. In this work, we introduce UniRL, a self-improving post-training approach. Our approach enables the model to generate images from prompts and use them as training data in each iteration, without relying on any external image data. Moreover, it enables the two tasks to enhance each other: the generated images are used for understanding, and the understanding results are used to supervise generation. We explore supervised fine-tuning (SFT) and Group Relative Policy Optimization (GRPO) to optimize the models. UniRL offers three key advantages: (1) it requires no external image data, as all training samples are generated by the model itself during training; (2) it not only improves individual task performance, but also reduces the imbalance between generation and understanding; and (3) it requires only several additional training steps during the post-training stage. We evaluate UniRL on top of Show-o and Janus, achieving a GenEval score of 0.77 for Show-o and 0.65 for Janus. Code and models will be released in https://github.com/showlab/UniRL.

UniRL: Самообучающиеся унифицированные мультимодальные модели через обучение с учителем и обучение с подкреплением

UniRL: Self-Improving Unified Multimodal Models via Supervised and Reinforcement Learning

Аннотация

Support