V-Zero: Antwoordlabelvrije On-Policy Destillatie met Contrastieve Bewijspoort voor Fijnmazig Visueel Redeneren

Samenvatting

Fijnkorrelig visueel redeneren vereist dat multimodale grote taalmodellen (MLLM's) taakrelevante visuele aanwijzingen identificeren en hun redenering baseren op lokale beeldgebieden. Bestaande agentische methoden vertrouwen doorgaans op bekrachtigingsleren met verifieerbare beloningen of op gesuperviseerde fine-tuning op grootschalige geannoteerde redeneersporen, wat leidt tot kostbare verkenning, handmatig ontworpen verificatieregels of een sterke afhankelijkheid van tekstuele supervisie. Een natuurlijke manier om dergelijke externe antwoordlabels te vermijden, is door te leren van trajecten die door de student zelf zijn gesampled, wat verwijst naar On-Policy Distillation (OPD). Om te begrijpen wat OPD wel en niet kan bieden voor visueel redeneren, bekijken we het opnieuw als negatieve-vrije stop-gradient-uitlijning. Dit perspectief laat zien dat, hoewel OPD effectieve token-niveau correctie biedt, het plafond ervan wordt beperkt door het ontbreken van discriminatie op trajectniveau. Gedreven door deze observaties stellen we V-Zero voor, een antwoordlabelvrij raamwerk voor visueel redeneren met contrastieve bewijsselectie. V-Zero gebruikt geen geannoteerde tekstuele antwoordlabels; in plaats daarvan combineert het tijdens de training een vraagrelevante regionale uitsnede met een negatief visueel aanzicht om door de student gesamplede trajecten te evalueren en dichte token-niveau distillatie te sturen. Experimenten op meerdere visuele redeneerbenchmarks tonen aan dat V-Zero consistent fijnkorrelig visueel redeneren verbetert, terwijl sterke generalisatie behouden blijft. Opmerkelijk is dat V-Zero meer dan 5 keer sneller is dan eerdere gesuperviseerde fine-tuning methoden en meer dan 10 keer sneller dan bekrachtigingsleren baselines. Code en dataset worden gepubliceerd op https://github.com/eVI-group-SCU/V-Zero

English

Fine-grained visual reasoning requires multimodal large language models (MLLMs) to identify task-relevant visual evidence and ground their reasoning in local image regions. Existing agentic methods typically rely on reinforcement learning with verifiable rewards or supervised fine-tuning on large-scale annotated reasoning traces, leading to costly exploration, hand-designed verification rules, or heavy dependence on textual supervision. A natural way to avoid such external answer labels is to learn from trajectories sampled by the student itself, which points to On-Policy Distillation (OPD). To understand what OPD can and cannot provide for visual reasoning, we revisit it as negative-free stop-gradient alignment. This perspective shows that, although OPD provides effective token-level correction, its ceiling is constrained by the absence of trajectory-level discrimination. Motivated by these observations, we propose V-Zero, an answer-label-free framework for visual reasoning with contrastive evidence gating. V-Zero uses no annotated textual answer labels; instead, during training it pairs a question-relevant regional crop with a negative visual view to evaluate student-sampled trajectories and gate dense token-level distillation. Experiments on multiple visual reasoning benchmarks show that V-Zero consistently improves fine-grained visual reasoning while preserving strong generalization. Notably, V-Zero is more than 5times faster than previous supervised fine-tuning methods and more than 10times faster than reinforcement learning baselines. Code and dataset will be released at https://github.com/eVI-group-SCU/V-Zero