Segnali Surrogati da Formato e Lunghezza: Apprendimento per Rinforzo per Risolvere Problemi Matematici senza Risposte di Riferimento
Surrogate Signals from Format and Length: Reinforcement Learning for Solving Mathematical Problems without Ground Truth Answers
May 26, 2025
Autori: Rihui Xin, Han Liu, Zecheng Wang, Yupeng Zhang, Dianbo Sui, Xiaolin Hu, Bingning Wang
cs.AI
Abstract
I Modelli Linguistici di Grandi Dimensioni hanno ottenuto un successo straordinario nei compiti di elaborazione del linguaggio naturale, con l'Apprendimento per Rinforzo che svolge un ruolo chiave nell'adattarli a specifiche applicazioni. Tuttavia, ottenere risposte di verità di base per addestrare i LLM nella risoluzione di problemi matematici è spesso impegnativo, costoso e talvolta impossibile. Questa ricerca approfondisce l'utilizzo del formato e della lunghezza come segnali surrogati per addestrare i LLM nella risoluzione di problemi matematici, aggirando la necessità delle tradizionali risposte di verità di base. Il nostro studio dimostra che una funzione di ricompensa incentrata esclusivamente sulla correttezza del formato può produrre miglioramenti delle prestazioni paragonabili all'algoritmo GRPO standard nelle fasi iniziali. Riconoscendo i limiti delle ricompense basate solo sul formato nelle fasi successive, incorporiamo ricompense basate sulla lunghezza. L'approccio GRPO risultante, che sfrutta i segnali surrogati di formato-lunghezza, non solo eguaglia ma supera le prestazioni dell'algoritmo GRPO standard che si basa su risposte di verità di base in determinati scenari, raggiungendo un'accuratezza del 40,0\% su AIME2024 con un modello base da 7B. Attraverso un'esplorazione e una sperimentazione sistematiche, questa ricerca non solo offre una soluzione pratica per addestrare i LLM a risolvere problemi matematici e ridurre la dipendenza dalla raccolta estensiva di dati di verità di base, ma rivela anche l'essenza del perché il nostro approccio senza etichette ha successo: il modello base è come un eccellente studente che ha già padroneggiato le abilità di ragionamento matematico e logico, ma si comporta male nel compito in classe, ha semplicemente bisogno di sviluppare buone abitudini di risposta per ottenere risultati eccezionali negli esami, in altre parole, per sbloccare le capacità che già possiede.
English
Large Language Models have achieved remarkable success in natural language
processing tasks, with Reinforcement Learning playing a key role in adapting
them to specific applications. However, obtaining ground truth answers for
training LLMs in mathematical problem-solving is often challenging, costly, and
sometimes unfeasible. This research delves into the utilization of format and
length as surrogate signals to train LLMs for mathematical problem-solving,
bypassing the need for traditional ground truth answers.Our study shows that a
reward function centered on format correctness alone can yield performance
improvements comparable to the standard GRPO algorithm in early phases.
Recognizing the limitations of format-only rewards in the later phases, we
incorporate length-based rewards. The resulting GRPO approach, leveraging
format-length surrogate signals, not only matches but surpasses the performance
of the standard GRPO algorithm relying on ground truth answers in certain
scenarios, achieving 40.0\% accuracy on AIME2024 with a 7B base model. Through
systematic exploration and experimentation, this research not only offers a
practical solution for training LLMs to solve mathematical problems and
reducing the dependence on extensive ground truth data collection, but also
reveals the essence of why our label-free approach succeeds: base model is like
an excellent student who has already mastered mathematical and logical
reasoning skills, but performs poorly on the test paper, it simply needs to
develop good answering habits to achieve outstanding results in exams , in
other words, to unlock the capabilities it already possesses.