Cuando los modelos se juzgan a sí mismos: auto-evolución no supervisada para el razonamiento multimodal

Resumen

Los recientes avances en modelos de lenguaje multimodal de gran escala han logrado un alto rendimiento en tareas de razonamiento, pero estas mejoras dependen en gran medida de datos anotados de alta calidad o de la destilación de modelos docentes, ambos costosos y difíciles de escalar. Para abordar este problema, proponemos un marco de entrenamiento de auto-evolución no supervisado para el razonamiento multimodal que logra mejoras estables de rendimiento sin utilizar respuestas anotadas por humanos ni modelos de recompensa externos. Para cada entrada, muestreamos múltiples trayectorias de razonamiento y modelamos conjuntamente su estructura intragrupal. Utilizamos la señal de auto-consistencia del Actor como prior de entrenamiento e introducimos una modulación acotada basada en un Juez para reponderar continuamente trayectorias de diferente calidad. Además, modelamos las puntuaciones moduladas como una distribución a nivel grupal y convertimos las puntuaciones absolutas en ventajas relativas dentro de cada grupo, permitiendo actualizaciones de políticas más robustas. Entrenado con Optimización de Políticas Relativas Grupales (GRPO) en datos no etiquetados, nuestro método mejora consistentemente el rendimiento de razonamiento y la generalización en cinco benchmarks de razonamiento matemático, ofreciendo una vía escalable hacia modelos multimodales auto-evolutivos. El código está disponible en https://github.com/OPPO-Mente-Lab/LLM-Self-Judge.

English

Recent progress in multimodal large language models has led to strong performance on reasoning tasks, but these improvements largely rely on high-quality annotated data or teacher-model distillation, both of which are costly and difficult to scale. To address this, we propose an unsupervised self-evolution training framework for multimodal reasoning that achieves stable performance improvements without using human-annotated answers or external reward models. For each input, we sample multiple reasoning trajectories and jointly model their within group structure. We use the Actor's self-consistency signal as a training prior, and introduce a bounded Judge based modulation to continuously reweight trajectories of different quality. We further model the modulated scores as a group level distribution and convert absolute scores into relative advantages within each group, enabling more robust policy updates. Trained with Group Relative Policy Optimization (GRPO) on unlabeled data, our method consistently improves reasoning performance and generalization on five mathematical reasoning benchmarks, offering a scalable path toward self-evolving multimodal models. The code are available at https://github.com/OPPO-Mente-Lab/LLM-Self-Judge.

Cuando los modelos se juzgan a sí mismos: auto-evolución no supervisada para el razonamiento multimodal

When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning

Resumen

Support