VLM — хорошие учителя для видео-рассуждения посредством адаптивной оптимизации во время тестирования

Аннотация

Недавняя парадигма «Рассуждение с видео» использует модели генерации видео (VGM) для создания темпорально согласованных визуальных траекторий с целью выполнения задач рассуждения. Несмотря на то, что современные VGM достигают высокого визуального качества, они часто испытывают трудности с пониманием и соблюдением специфических правил задачи, что приводит к логическим сбоям в различных сценариях рассуждения. Существующие попытки используют модели зрения и языка (VLM) в качестве предрешателей задач для создания или уточнения текстовых руководств для VGM. Однако текстовые описания неспособны охватить сложные пространственно-временные детали, а VGM часто с трудом точно выполняют детализированные или редко встречающиеся инструкции, даже при наличии корректного плана. Хотя VLM испытывают трудности в роли решателей, они обладают мощными способностями восприятия для оценки соблюдения процессных ограничений и достижения конечной цели. Используя это преимущество, мы вводим смену парадигмы, переводящую роль VLM на «учителей». В частности, VLM-учитель извлекает правила, специфичные для задачи, для формулирования дифференцируемых вознаграждений, направляя VGM-рассуждатель через онлайн-оптимизацию в тестовое время легковесного модуля LoRA. Эта стратегия позволяет адаптивную оптимизацию в тестовое время и расширяет возможности рассуждения за пределы внутренних границ VGM. Оценки на символьном (VBVR-Bench) и общем (RULER-Bench) бенчмарках для видео-рассуждений показывают, что предложенный метод дает средний прирост производительности в 16,7 балла, значительно превосходя парадигму VLM-как-Решатель (+0,4 балла) и масштабирование Best-of-N (+2,2 балла) при сравнимых затратах времени тестирования. Эти результаты показывают, что интеграция VLM в качестве учителей в тестовое время предлагает многообещающую парадигму для достижения обобщаемого видео-рассуждения. Страница проекта: https://VLM-as-Teacher.github.io/

English

The recent "Reasoning with Video" paradigm utilizes Video Generation Models (VGMs) to generate temporally coherent visual trajectories to complete reasoning tasks. Although state-of-the-art VGMs excel at visual quality, they often struggle to understand and follow task-specific rules, leading to logical failures across diverse reasoning scenarios. Existing efforts try to utilize Vision-Language Models (VLMs) as problem pre-solvers to produce or refine textual guidance for the VGM. However, textual descriptions fail to capture intricate spatiotemporal details, and VGMs often struggle to faithfully execute fine-grained or long-tail instructions even with a valid plan. While VLMs struggle as solvers, they possess strong perception capabilities to evaluate process-constraint satisfaction and final-goal achievement. Leveraging this strength, we introduce a paradigm shift that transitions the role of VLMs to "teachers". Specifically, a VLM teacher extracts task-specific rules to formulate differentiable rewards, guiding a VGM Reasoner via test-time online optimization of a lightweight LoRA module. This strategy enables adaptive test-time optimization and extends the reasoning capabilities beyond the VGM's intrinsic boundaries. Evaluations on symbolic (VBVR-Bench) and general-purpose (RULER-Bench) video reasoning benchmarks show that the proposed method yields a 16.7-point average performance gain, outperforming the VLM-as-Solver paradigm (+0.4 points) and Best-of-N scaling (+2.2 points) by a large margin at comparable test-time cost. These findings reveal that integrating VLMs as test-time teachers offers a promising paradigm for achieving generalizable video reasoning. Project Page: https://VLM-as-Teacher.github.io/