VeriEvol: Het opschalen van multimodaal wiskundig redeneren via verifieerbare Evol-Instruct

Samenvatting

Het opschalen van reinforcement learning voor visueel wiskundig redeneren vereist meer dan het genereren van moeilijkere vragen: naarmate de datavolume groeit, moeten de beloningslabels zelf betrouwbaar blijven. Toch schalen bestaande datapijplijnen het toezicht op terwijl ze vertrouwen op de labeller, en methoden aan de beleidszijde gaan ervan uit dat de onderliggende antwoorden al correct zijn. Wij beschouwen schaling daarentegen als een verifieerbaar dataconstructieprobleem en ontkoppelen twee assen vóór enige beleidsupdate: promptmoeilijkheid, uitgebreid door routespecifieke evolutieoperatoren, en antwoordbetrouwbaarheid, afgedwongen door offline hypothese-testfalsificatie. We implementeren dit als VeriEvol, een iteratief raamwerk met twee uitbreidbare componenten: een typebewuste evolutiemodule die beeld-vraagzaden met lage moeilijkheid herschrijft naar hardere, beeldgebaseerde prompts; en HTV-Agent, een verificateur die een antwoord alleen accepteert nadat multi-bront tegenbewijs er niet in is geslaagd het te weerleggen. De resulterende geverifieerde data schaalt in volume, breidt uit door evolutieroutes of verificateurkanalen toe te voegen, en sluit direct aan op bestaande GRPO-stijl RL-recepten. Op een vijf-benchmark visueel-wiskundige suite verhoogt het opschalen van geëvolueerde SFT-gegevens van 10K naar 250K monsters de gemiddelde nauwkeurigheid van 35,42 naar 54,73; vervolgens, met backbone, SFT-initialisatie en GRPO-recept constant gehouden, voegt VeriEvol een cumulatieve +3,88 toe bovenop een niet-geëvolueerde RL-baseline, waarvan +1,82 afkomstig is van geëvolueerde prompts en +2,06 van de HTV-Agent verificateur. We geven de prompts, data, modellen, code en de volledige verificateurtrace van elk monster vrij, zodat downstreamwerk de pijplijn kan schalen en auditen in plaats van alleen de uitvoer ervan te inspecteren.

English

Scaling reinforcement learning for visual mathematical reasoning requires more than generating harder questions: as data volume grows, the reward labels themselves must remain reliable. Yet existing data pipelines scale supervision while trusting the labeller, and policy-side methods assume the underlying answers are already correct. We instead treat scaling as a verifiable data-construction problem and decouple two axes before any policy update: prompt difficulty, expanded by route-specific evolution operators, and answer reliability, enforced by offline hypothesis-test falsification. We instantiate this as VeriEvol, an iterative framework with two extensible components: a type-aware evolution module that rewrites low-difficulty image-question seeds into harder, image-grounded prompts; and HTV-Agent, a verifier that accepts an answer only after multi-source counter-evidence has failed to refute it. The resulting verified data scales in volume, extends by adding evolution routes or verifier channels, and plugs directly into existing GRPO-style RL recipes. On a five-benchmark visual-math suite, scaling evolved SFT data from 10K to 250K samples raises the mean accuracy from 35.42 to 54.73; then, with backbone, SFT initialization, and GRPO recipe held fixed, VeriEvol adds a cumulative +3.88 over an un-evolved RL baseline, of which +1.82 comes from evolved prompts and +2.06 from the HTV-Agent verifier. We release the prompts, data, models, code, and the full verifier trace of every sample, so that downstream work can scale and audit the pipeline rather than only inspect its outputs.