Quando os Modelos Julgam a Si Mesmos: Auto-Evolução Não Supervisionada para Raciocínio Multimodal

Resumo

Os recentes avanços em modelos de linguagem grandes multimodais têm levado a um forte desempenho em tarefas de raciocínio, mas essas melhorias dependem amplamente de dados anotados de alta qualidade ou da destilação de um modelo professor, ambos custosos e difíceis de escalar. Para resolver isso, propomos uma estrutura de treinamento de auto-evolução não supervisionada para raciocínio multimodal que alcança melhorias de desempenho estáveis sem utilizar respostas anotadas por humanos ou modelos externos de recompensa. Para cada entrada, amostramos múltiplas trajetórias de raciocínio e modelamos conjuntamente a sua estrutura intragrupo. Utilizamos o sinal de auto-consistência do Ator como um *prior* de treinamento e introduzimos uma modulação baseada num Juiz limitado para reponderar continuamente trajetórias de qualidade diferente. Modelamos ainda as pontuações moduladas como uma distribuição a nível de grupo e convertemos as pontuações absolutas em vantagens relativas dentro de cada grupo, permitindo atualizações de política mais robustas. Treinado com Otimização de Política Relativa de Grupo (GRPO) em dados não rotulados, o nosso método melhora consistentemente o desempenho do raciocínio e a generalização em cinco *benchmarks* de raciocínio matemático, oferecendo um caminho escalável para modelos multimodais auto-evolutivos. O código está disponível em https://github.com/OPPO-Mente-Lab/LLM-Self-Judge.

English

Recent progress in multimodal large language models has led to strong performance on reasoning tasks, but these improvements largely rely on high-quality annotated data or teacher-model distillation, both of which are costly and difficult to scale. To address this, we propose an unsupervised self-evolution training framework for multimodal reasoning that achieves stable performance improvements without using human-annotated answers or external reward models. For each input, we sample multiple reasoning trajectories and jointly model their within group structure. We use the Actor's self-consistency signal as a training prior, and introduce a bounded Judge based modulation to continuously reweight trajectories of different quality. We further model the modulated scores as a group level distribution and convert absolute scores into relative advantages within each group, enabling more robust policy updates. Trained with Group Relative Policy Optimization (GRPO) on unlabeled data, our method consistently improves reasoning performance and generalization on five mathematical reasoning benchmarks, offering a scalable path toward self-evolving multimodal models. The code are available at https://github.com/OPPO-Mente-Lab/LLM-Self-Judge.

Quando os Modelos Julgam a Si Mesmos: Auto-Evolução Não Supervisionada para Raciocínio Multimodal

When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning

Resumo

Support