V-Zero: Безметочная дистилляция по текущей политике с контрастивным стробированием свидетельств для мелкозернистого визуального рассуждения

Аннотация

Тонкозернистое визуальное рассуждение требует от мультимодальных больших языковых моделей (MLLM) выявления релевантных задаче визуальных свидетельств и обоснования своих рассуждений на основе локальных областей изображения. Существующие агентные методы обычно полагаются на обучение с подкреплением с проверяемыми наградами или контролируемую донастройку на крупномасштабных аннотированных трассах рассуждений, что приводит к дорогостоящему исследованию, созданным вручную правилам проверки или сильной зависимости от текстового контроля. Естественный способ избежать таких внешних меток ответов — это обучение на траекториях, сэмплированных самим студентом, что указывает на внутриполитическую дистилляцию (OPD). Чтобы понять, что OPD может и не может дать для визуального рассуждения, мы пересматриваем его как отрицательно-свободное выравнивание с остановкой градиента. Эта перспектива показывает, что, хотя OPD обеспечивает эффективную коррекцию на уровне токенов, его потолок ограничен отсутствием дискриминации на уровне траекторий. Основываясь на этих наблюдениях, мы предлагаем V-Zero — фреймворк без меток ответов для визуального рассуждения с контрастивным стробированием свидетельств. V-Zero не использует аннотированные текстовые метки ответов; вместо этого во время обучения он сопоставляет региональный кроп, релевантный вопросу, с отрицательным визуальным видом для оценки сэмплированных студентом траекторий и стробирования плотной дистилляции на уровне токенов. Эксперименты на нескольких эталонных тестах визуального рассуждения показывают, что V-Zero последовательно улучшает тонкозернистое визуальное рассуждение, сохраняя при этом сильное обобщение. Примечательно, что V-Zero более чем в 5 раз быстрее предыдущих методов контролируемой донастройки и более чем в 10 раз быстрее базовых методов обучения с подкреплением. Код и набор данных будут опубликованы по адресу https://github.com/eVI-group-SCU/V-Zero.

English

Fine-grained visual reasoning requires multimodal large language models (MLLMs) to identify task-relevant visual evidence and ground their reasoning in local image regions. Existing agentic methods typically rely on reinforcement learning with verifiable rewards or supervised fine-tuning on large-scale annotated reasoning traces, leading to costly exploration, hand-designed verification rules, or heavy dependence on textual supervision. A natural way to avoid such external answer labels is to learn from trajectories sampled by the student itself, which points to On-Policy Distillation (OPD). To understand what OPD can and cannot provide for visual reasoning, we revisit it as negative-free stop-gradient alignment. This perspective shows that, although OPD provides effective token-level correction, its ceiling is constrained by the absence of trajectory-level discrimination. Motivated by these observations, we propose V-Zero, an answer-label-free framework for visual reasoning with contrastive evidence gating. V-Zero uses no annotated textual answer labels; instead, during training it pairs a question-relevant regional crop with a negative visual view to evaluate student-sampled trajectories and gate dense token-level distillation. Experiments on multiple visual reasoning benchmarks show that V-Zero consistently improves fine-grained visual reasoning while preserving strong generalization. Notably, V-Zero is more than 5times faster than previous supervised fine-tuning methods and more than 10times faster than reinforcement learning baselines. Code and dataset will be released at https://github.com/eVI-group-SCU/V-Zero