ChatPaper.aiChatPaper

TRON: 시각적 추론 강화 학습을 위한 대상 규칙 검증 가능한 온라인 환경

TRON: Targeted Rule-Verifiable Online Environments for Visual Reasoning RL

June 1, 2026
저자: Tianze Yang, Yucheng Shi, Ruitong Sun, Jingyuan Huang, Ninghao Liu, Jin Sun
cs.AI

초록

시각적 추론을 위한 강화 학습(RL)에는 확장 가능하고 검증 가능하며 통제 가능한 훈련 신호가 필요하다. 기존의 시각적 RL 사후 훈련은 수집 예산에 의해 제한되는 고정된 이미지-질문-답변 샘플을 사용하여 정적으로 선별된 데이터셋에서 훈련한다. 본 연구에서는 TRON(Targeted, Rule-verifiable Online eNvironments)을 소개한다. 이는 온라인 환경 기반으로, 훈련 롤아웃이 통제 가능한 생성-검증 프로그램에 의해 요청 시 생성된다. 이 프로그램은 새로운 잠재 시각 상태를 샘플링하고, 이미지를 렌더링하며, 질문을 하고, 답변을 정확히 검증한다. 따라서 단일 실행으로 현재 커리큘럼에 필요한 난이도 수준에서 무제한의 새로운 인스턴스 스트림을 생성할 수 있다. 현재 TRON 제품군은 520개의 환경을 포함하며, 이는 5개의 능력 버킷(공간, 수학, 도표, 패턴/논리, 계수)으로 구성된다. 동일한 기반은 모든 버킷에서 훈련된 단일 전체 모델과 버킷별 능력 전문가 모델을 모두 지원하며, 추가 데이터 수집이 필요하지 않다. 또한 생성 신뢰성, 인스턴스 및 수준 다양성, 환경 간 유사 중복, 난이도별 기본 모델 통과율을 다루는 기반 분석을 제시한다. METHOD를 사용한 RL 사후 훈련은 Qwen3-VL-4B, Qwen2.5-VL-7B 및 MiMo-VL-7B-SFT에 걸쳐 10개의 외부 멀티모달 추론 벤치마크에서 일관되게 성능을 향상시킨다.
English
Reinforcement learning (RL) for visual reasoning needs scalable, verifiable, and controllable training signals. Existing visual RL post-training trains on static curated datasets, with fixed image-question-answer samples bounded by their collection budget. In this work, we introduce TRON (Targeted, Rule-verifiable Online eNvironments), an online environment substrate: a training rollout is generated on demand by a controllable generator-verifier program that samples a fresh latent visual state, renders an image, asks a question, and exactly verifies the answer. A single run can therefore draw an unbounded stream of fresh instances at the difficulty level required by the current curriculum. The current TRON suite contains 520 environments organized into five ability buckets (spatial, mathematical, diagram, pattern/logic, and counting); the same substrate supports both a single full model trained on all buckets and per-bucket ability-specialist models, with no additional data collection. We also introduce a substrate analysis covering generation reliability, instance and level diversity, cross-environment near-duplicates, and base-model pass rate by difficulty level. RL post-training with METHOD consistently improves performance on ten external multimodal reasoning benchmarks across Qwen3-VL-4B, Qwen2.5-VL-7B, and MiMo-VL-7B-SFT.