ChatPaper.aiChatPaper

V-Zero: Безметочная дистилляция по текущей политике с контрастивным стробированием свидетельств для мелкозернистого визуального рассуждения

V-Zero: Answer-Label-Free On-Policy Distillation with Contrastive Evidence Gating for Fine-Grained Visual Reasoning

June 24, 2026
Авторы: Haoxiang Sun, Zhihang Yi, Langxuan Deng, Yuhao Zhou, Peiqi Jia, Jian Zhao, Li Yuan, Jiancheng Lv, Tao Wang
cs.AI

Аннотация

Тонкозернистое визуальное рассуждение требует от мультимодальных больших языковых моделей (MLLM) выявления релевантных задаче визуальных свидетельств и обоснования своих рассуждений на основе локальных областей изображения. Существующие агентные методы обычно полагаются на обучение с подкреплением с проверяемыми наградами или контролируемую донастройку на крупномасштабных аннотированных трассах рассуждений, что приводит к дорогостоящему исследованию, созданным вручную правилам проверки или сильной зависимости от текстового контроля. Естественный способ избежать таких внешних меток ответов — это обучение на траекториях, сэмплированных самим студентом, что указывает на внутриполитическую дистилляцию (OPD). Чтобы понять, что OPD может и не может дать для визуального рассуждения, мы пересматриваем его как отрицательно-свободное выравнивание с остановкой градиента. Эта перспектива показывает, что, хотя OPD обеспечивает эффективную коррекцию на уровне токенов, его потолок ограничен отсутствием дискриминации на уровне траекторий. Основываясь на этих наблюдениях, мы предлагаем V-Zero — фреймворк без меток ответов для визуального рассуждения с контрастивным стробированием свидетельств. V-Zero не использует аннотированные текстовые метки ответов; вместо этого во время обучения он сопоставляет региональный кроп, релевантный вопросу, с отрицательным визуальным видом для оценки сэмплированных студентом траекторий и стробирования плотной дистилляции на уровне токенов. Эксперименты на нескольких эталонных тестах визуального рассуждения показывают, что V-Zero последовательно улучшает тонкозернистое визуальное рассуждение, сохраняя при этом сильное обобщение. Примечательно, что V-Zero более чем в 5 раз быстрее предыдущих методов контролируемой донастройки и более чем в 10 раз быстрее базовых методов обучения с подкреплением. Код и набор данных будут опубликованы по адресу https://github.com/eVI-group-SCU/V-Zero.
English
Fine-grained visual reasoning requires multimodal large language models (MLLMs) to identify task-relevant visual evidence and ground their reasoning in local image regions. Existing agentic methods typically rely on reinforcement learning with verifiable rewards or supervised fine-tuning on large-scale annotated reasoning traces, leading to costly exploration, hand-designed verification rules, or heavy dependence on textual supervision. A natural way to avoid such external answer labels is to learn from trajectories sampled by the student itself, which points to On-Policy Distillation (OPD). To understand what OPD can and cannot provide for visual reasoning, we revisit it as negative-free stop-gradient alignment. This perspective shows that, although OPD provides effective token-level correction, its ceiling is constrained by the absence of trajectory-level discrimination. Motivated by these observations, we propose V-Zero, an answer-label-free framework for visual reasoning with contrastive evidence gating. V-Zero uses no annotated textual answer labels; instead, during training it pairs a question-relevant regional crop with a negative visual view to evaluate student-sampled trajectories and gate dense token-level distillation. Experiments on multiple visual reasoning benchmarks show that V-Zero consistently improves fine-grained visual reasoning while preserving strong generalization. Notably, V-Zero is more than 5times faster than previous supervised fine-tuning methods and more than 10times faster than reinforcement learning baselines. Code and dataset will be released at https://github.com/eVI-group-SCU/V-Zero