TRON: Gerichte Regelverifieerbare Online Omgevingen voor Visueel Redeneren RL

Samenvatting

Versterkingsleren (RL) voor visueel redeneren vereist schaalbare, verifieerbare en controleerbare trainingssignalen. Bestaande visuele RL-natraining wordt getraind op statische samengestelde datasets, met vaste beeld-vraag-antwoordmonsters die worden begrensd door het bijbehorende verzamelingsbudget. In dit werk introduceren we TRON (Targeted, Rule-verifiable Online eNvironments), een online omgevingsubstraat: een trainingsrollout wordt op verzoek gegenereerd door een beheersbaar generator-verifier programma dat een verse latente visuele toestand bemonstert, een afbeelding rendert, een vraag stelt en het antwoord exact verifieert. Een enkele run kan daardoor een onbegrensde stroom verse exemplaren genereren op het moeilijkheidsniveau dat het huidige curriculum vereist. De huidige TRON-suite bevat 520 omgevingen, georganiseerd in vijf vaardigheidsgroepen (ruimtelijk, wiskundig, diagram, patroon/logica en tellen); hetzelfde substraat ondersteunt zowel een enkel volledig model dat op alle groepen is getraind als per-groep specialistenmodellen, zonder dat extra dataverzameling nodig is. We introduceren ook een substraatanalyse die betrekking heeft op generatiebetrouwbaarheid, diversiteit van exemplaren en niveaus, bijna-herhalingen over omgevingen heen en het slagingspercentage van het basismodel per moeilijkheidsgraad. RL-natraining met METHOD verbetert consistent de prestaties op tien externe multimodale redeneerbenchmarks voor Qwen3-VL-4B, Qwen2.5-VL-7B en MiMo-VL-7B-SFT.

English

Reinforcement learning (RL) for visual reasoning needs scalable, verifiable, and controllable training signals. Existing visual RL post-training trains on static curated datasets, with fixed image-question-answer samples bounded by their collection budget. In this work, we introduce TRON (Targeted, Rule-verifiable Online eNvironments), an online environment substrate: a training rollout is generated on demand by a controllable generator-verifier program that samples a fresh latent visual state, renders an image, asks a question, and exactly verifies the answer. A single run can therefore draw an unbounded stream of fresh instances at the difficulty level required by the current curriculum. The current TRON suite contains 520 environments organized into five ability buckets (spatial, mathematical, diagram, pattern/logic, and counting); the same substrate supports both a single full model trained on all buckets and per-bucket ability-specialist models, with no additional data collection. We also introduce a substrate analysis covering generation reliability, instance and level diversity, cross-environment near-duplicates, and base-model pass rate by difficulty level. RL post-training with METHOD consistently improves performance on ten external multimodal reasoning benchmarks across Qwen3-VL-4B, Qwen2.5-VL-7B, and MiMo-VL-7B-SFT.