ChatPaper.aiChatPaper

TinyV: Het verminderen van fout-negatieven in verificatie verbetert RL voor redeneren met LLM's

TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning

May 20, 2025
Auteurs: Zhangchen Xu, Yuetai Li, Fengqing Jiang, Bhaskar Ramasubramanian, Luyao Niu, Bill Yuchen Lin, Radha Poovendran
cs.AI

Samenvatting

Reinforcement Learning (RL) is uitgegroeid tot een krachtig instrument om de redeneervaardigheden van grote taalmmodellen (LLMs) te verbeteren door hun beleid te optimaliseren met beloningssignalen. Het succes van RL hangt echter af van de betrouwbaarheid van beloningen, die worden verstrekt door verificatiemodellen. In dit artikel belichten en analyseren we een wijdverbreid probleem—vals-negatieven—waarbij verificatiemodellen correcte modeluitvoer ten onrechte afwijzen. Onze diepgaande studie van de Big-Math-RL-Verified dataset onthult dat meer dan 38% van de door het model gegenereerde antwoorden te maken heeft met vals-negatieven, waarbij de verificator correcte antwoorden niet herkent. We tonen zowel empirisch als theoretisch aan dat deze vals-negatieven de RL-training ernstig belemmeren door het model te beroven van informatieve gradiëntsignalen en de convergentie te vertragen. Om dit te verhelpen, stellen we tinyV voor, een lichtgewicht LLM-gebaseerde verificator die bestaande regelgebaseerde methoden aanvult. Deze identificeert dynamisch potentiële vals-negatieven en herstelt geldige antwoorden om nauwkeurigere beloningsschattingen te produceren. Op meerdere wiskundige redeneerbenchmarks verhoogt de integratie van TinyV de slaagpercentages met tot wel 10% en versnelt het de convergentie ten opzichte van de baseline. Onze bevindingen benadrukken het cruciale belang van het aanpakken van vals-negatieven bij verificatie en bieden een praktische aanpak om RL-gebaseerde fine-tuning van LLMs te verbeteren. Onze code is beschikbaar op https://github.com/uw-nsl/TinyV.
English
Reinforcement Learning (RL) has become a powerful tool for enhancing the reasoning abilities of large language models (LLMs) by optimizing their policies with reward signals. Yet, RL's success relies on the reliability of rewards, which are provided by verifiers. In this paper, we expose and analyze a widespread problem--false negatives--where verifiers wrongly reject correct model outputs. Our in-depth study of the Big-Math-RL-Verified dataset reveals that over 38% of model-generated responses suffer from false negatives, where the verifier fails to recognize correct answers. We show, both empirically and theoretically, that these false negatives severely impair RL training by depriving the model of informative gradient signals and slowing convergence. To mitigate this, we propose tinyV, a lightweight LLM-based verifier that augments existing rule-based methods, which dynamically identifies potential false negatives and recovers valid responses to produce more accurate reward estimates. Across multiple math-reasoning benchmarks, integrating TinyV boosts pass rates by up to 10% and accelerates convergence relative to the baseline. Our findings highlight the critical importance of addressing verifier false negatives and offer a practical approach to improve RL-based fine-tuning of LLMs. Our code is available at https://github.com/uw-nsl/TinyV.
PDF132May 23, 2025