TRON: Ambientes Online Verificáveis por Regras Direcionados para RL de Raciocínio Visual

Resumo

Aprendizado por reforço (RL) para raciocínio visual necessita de sinais de treinamento escaláveis, verificáveis e controláveis. Os atuais pós-treinamentos visuais com RL são treinados em conjuntos de dados estáticos e curados, com amostras fixas de imagem-pergunta-resposta limitadas pelo orçamento de coleta. Neste trabalho, introduzimos o TRON (Ambientes Online Direcionados e Verificáveis por Regras, do inglês *Targeted, Rule-verifiable Online eNvironments*), um substrato de ambiente online: uma *rollout* de treinamento é gerada sob demanda por um programa gerador-verificador controlável que amostra um novo estado visual latente, renderiza uma imagem, faz uma pergunta e verifica exatamente a resposta. Uma única execução pode, portanto, gerar um fluxo ilimitado de novas instâncias no nível de dificuldade exigido pelo currículo atual. O conjunto atual do TRON contém 520 ambientes organizados em cinco categorias de habilidade (espacial, matemática, diagrama, padrão/lógica e contagem); o mesmo substrato suporta tanto um único modelo completo treinado em todas as categorias quanto modelos especialistas por categoria de habilidade, sem necessidade de coleta adicional de dados. Também introduzimos uma análise do substrato que abrange confiabilidade da geração, diversidade de instâncias e níveis, quase duplicatas entre ambientes e taxa de aprovação do modelo base por nível de dificuldade. O pós-treinamento com RL usando METHOD melhora consistentemente o desempenho em dez benchmarks externos de raciocínio multimodal nos modelos Qwen3-VL-4B, Qwen2.5-VL-7B e MiMo-VL-7B-SFT.

English

Reinforcement learning (RL) for visual reasoning needs scalable, verifiable, and controllable training signals. Existing visual RL post-training trains on static curated datasets, with fixed image-question-answer samples bounded by their collection budget. In this work, we introduce TRON (Targeted, Rule-verifiable Online eNvironments), an online environment substrate: a training rollout is generated on demand by a controllable generator-verifier program that samples a fresh latent visual state, renders an image, asks a question, and exactly verifies the answer. A single run can therefore draw an unbounded stream of fresh instances at the difficulty level required by the current curriculum. The current TRON suite contains 520 environments organized into five ability buckets (spatial, mathematical, diagram, pattern/logic, and counting); the same substrate supports both a single full model trained on all buckets and per-bucket ability-specialist models, with no additional data collection. We also introduce a substrate analysis covering generation reliability, instance and level diversity, cross-environment near-duplicates, and base-model pass rate by difficulty level. RL post-training with METHOD consistently improves performance on ten external multimodal reasoning benchmarks across Qwen3-VL-4B, Qwen2.5-VL-7B, and MiMo-VL-7B-SFT.