Quando i Modelli Giudicano Se Stessi: Auto-evoluzione Non Supervisionata per il Ragionamento Multimodale

Abstract

I recenti progressi nei modelli linguistici multimodali di grandi dimensioni hanno portato a prestazioni elevate nei compiti di ragionamento, ma questi miglioramenti si basano in larga misura su dati annotati di alta qualità o sulla distillazione da modelli insegnanti, entrambi costosi e difficili da scalare. Per affrontare questo problema, proponiamo un framework di addestramento di auto-evoluzione non supervisionato per il ragionamento multimodale che raggiunge miglioramenti prestazionali stabili senza utilizzare risposte annotate da esseri umani o modelli di ricompensa esterni. Per ogni input, campioniamo multiple traiettorie di ragionamento e modelliamo congiuntamente la loro struttura intragruppo. Utilizziamo il segnale di auto-consistenza dell'Attore come prior di addestramento e introduciamo una modulazione basata su un Giudice delimitato per ponderare continuamente le traiettorie di qualità diversa. Modelliamo ulteriormente i punteggi modulati come una distribuzione a livello di gruppo e convertiamo i punteggi assoluti in vantaggi relativi all'interno di ciascun gruppo, consentendo aggiornamenti della politica più robusti. Addestrato con l'Ottimizzazione della Politica Relativa di Gruppo (GRPO) su dati non etichettati, il nostro metodo migliora costantemente le prestazioni di ragionamento e la generalizzazione su cinque benchmark di ragionamento matematico, offrendo un percorso scalabile verso modelli multimodali auto-evolutivi. Il codice è disponibile all'indirizzo https://github.com/OPPO-Mente-Lab/LLM-Self-Judge.

English

Recent progress in multimodal large language models has led to strong performance on reasoning tasks, but these improvements largely rely on high-quality annotated data or teacher-model distillation, both of which are costly and difficult to scale. To address this, we propose an unsupervised self-evolution training framework for multimodal reasoning that achieves stable performance improvements without using human-annotated answers or external reward models. For each input, we sample multiple reasoning trajectories and jointly model their within group structure. We use the Actor's self-consistency signal as a training prior, and introduce a bounded Judge based modulation to continuously reweight trajectories of different quality. We further model the modulated scores as a group level distribution and convert absolute scores into relative advantages within each group, enabling more robust policy updates. Trained with Group Relative Policy Optimization (GRPO) on unlabeled data, our method consistently improves reasoning performance and generalization on five mathematical reasoning benchmarks, offering a scalable path toward self-evolving multimodal models. The code are available at https://github.com/OPPO-Mente-Lab/LLM-Self-Judge.

Quando i Modelli Giudicano Se Stessi: Auto-evoluzione Non Supervisionata per il Ragionamento Multimodale

When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning

Abstract

Support