Pós-treinamento Não Supervisionado para Raciocínio de LLM Multimodal via GRPO
Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO
May 28, 2025
Autores: Lai Wei, Yuting Li, Chen Wang, Yue Wang, Linghe Kong, Weiran Huang, Lichao Sun
cs.AI
Resumo
A melhoria de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) na fase de pós-treinamento geralmente depende de ajuste fino supervisionado (SFT) ou aprendizado por reforço (RL). No entanto, esses métodos supervisionados exigem dados multimodais caros e anotados manualmente—um recurso que, em última análise, não é sustentável. Embora esforços recentes tenham explorado o pós-treinamento não supervisionado, seus métodos são complexos e difíceis de iterar. Neste trabalho, somos os primeiros a investigar o uso do GRPO, um algoritmo de RL online estável e escalável, para permitir a melhoria contínua sem qualquer supervisão externa. Propomos o MM-UPT, uma estrutura simples, porém eficaz, para o pós-treinamento não supervisionado de MLLMs. O MM-UPT se baseia no GRPO, substituindo os sinais de recompensa tradicionais por um mecanismo de autorrecompensa baseado na votação majoritária de múltiplas respostas amostradas. Nossos experimentos demonstram que o MM-UPT melhora significativamente a capacidade de raciocínio do Qwen2.5-VL-7B (por exemplo, 66,3 %rightarrow72,9 % no MathVista, 62,9 %rightarrow68,7 % no We-Math), utilizando um conjunto de dados padrão sem rótulos de verdade absoluta. O MM-UPT também supera as linhas de base não supervisionadas anteriores e até se aproxima dos resultados do GRPO supervisionado. Além disso, mostramos que a incorporação de perguntas sintéticas, geradas exclusivamente pelo próprio MLLM, também pode impulsionar o desempenho, destacando uma abordagem promissora para a melhoria escalável e autônoma. No geral, o MM-UPT oferece um novo paradigma para o aprimoramento contínuo e autônomo de MLLMs na ausência de supervisão externa. Nosso código está disponível em https://github.com/waltonfuture/MM-UPT.
English
Improving Multi-modal Large Language Models (MLLMs) in the post-training
stage typically relies on supervised fine-tuning (SFT) or reinforcement
learning (RL). However, these supervised methods require expensive and manually
annotated multi-modal data--an ultimately unsustainable resource. While recent
efforts have explored unsupervised post-training, their methods are complex and
difficult to iterate. In this work, we are the first to investigate the use of
GRPO, a stable and scalable online RL algorithm, for enabling continual
self-improvement without any external supervision. We propose MM-UPT, a simple
yet effective framework for unsupervised post-training of MLLMs. MM-UPT builds
upon GRPO, replacing traditional reward signals with a self-rewarding mechanism
based on majority voting over multiple sampled responses. Our experiments
demonstrate that MM-UPT significantly improves the reasoning ability of
Qwen2.5-VL-7B (e.g., 66.3 %rightarrow72.9 % on MathVista, 62.9
%rightarrow68.7 % on We-Math), using standard dataset without ground truth
labels. MM-UPT also outperforms prior unsupervised baselines and even
approaches the results of supervised GRPO. Furthermore, we show that
incorporating synthetic questions, generated solely by MLLM itself, can boost
performance as well, highlighting a promising approach for scalable
self-improvement. Overall, MM-UPT offers a new paradigm for continual,
autonomous enhancement of MLLMs in the absence of external supervision. Our
code is available at https://github.com/waltonfuture/MM-UPT.