Los VLM son buenos maestros para el razonamiento en video mediante optimización adaptativa en tiempo de prueba.

Resumen

El reciente paradigma "Razonamiento con Video" utiliza Modelos de Generación de Video (VGMs) para generar trayectorias visuales temporalmente coherentes que completan tareas de razonamiento. Aunque los VGMs de última generación destacan en calidad visual, a menudo tienen dificultades para comprender y seguir reglas específicas de cada tarea, lo que provoca fallos lógicos en diversos escenarios de razonamiento. Los esfuerzos previos intentan emplear Modelos de Visión-Lenguaje (VLMs) como solucionadores previos del problema para generar o refinar instrucciones textuales para el VGM. Sin embargo, las descripciones textuales no logran capturar detalles espacio-temporales intrincados, y los VGMs suelen tener problemas para ejecutar fielmente instrucciones detalladas o de cola larga incluso con un plan válido. Si bien los VLMs tienen dificultades como solucionadores, poseen capacidades de percepción sólidas para evaluar la satisfacción de restricciones de proceso y el logro del objetivo final. Aprovechando esta fortaleza, introducimos un cambio de paradigma que transforma el rol de los VLMs en "maestros". Específicamente, un VLM maestro extrae reglas específicas de la tarea para formular recompensas diferenciables, guiando a un Razonador VGM mediante optimización en línea en tiempo de prueba de un módulo LoRA ligero. Esta estrategia permite una optimización adaptativa en tiempo de prueba y extiende las capacidades de razonamiento más allá de los límites intrínsecos del VGM. Las evaluaciones en puntos de referencia de razonamiento de video simbólico (VBVR-Bench) y de propósito general (RULER-Bench) muestran que el método propuesto obtiene una ganancia promedio de rendimiento de 16.7 puntos, superando con creces el paradigma VLM como Solucionador (+0.4 puntos) y el escalado Best-of-N (+2.2 puntos) con un coste comparable en tiempo de prueba. Estos hallazgos revelan que integrar VLMs como maestros en tiempo de prueba ofrece un paradigma prometedor para lograr un razonamiento de video generalizable. Página del proyecto: https://VLM-as-Teacher.github.io/

English

The recent "Reasoning with Video" paradigm utilizes Video Generation Models (VGMs) to generate temporally coherent visual trajectories to complete reasoning tasks. Although state-of-the-art VGMs excel at visual quality, they often struggle to understand and follow task-specific rules, leading to logical failures across diverse reasoning scenarios. Existing efforts try to utilize Vision-Language Models (VLMs) as problem pre-solvers to produce or refine textual guidance for the VGM. However, textual descriptions fail to capture intricate spatiotemporal details, and VGMs often struggle to faithfully execute fine-grained or long-tail instructions even with a valid plan. While VLMs struggle as solvers, they possess strong perception capabilities to evaluate process-constraint satisfaction and final-goal achievement. Leveraging this strength, we introduce a paradigm shift that transitions the role of VLMs to "teachers". Specifically, a VLM teacher extracts task-specific rules to formulate differentiable rewards, guiding a VGM Reasoner via test-time online optimization of a lightweight LoRA module. This strategy enables adaptive test-time optimization and extends the reasoning capabilities beyond the VGM's intrinsic boundaries. Evaluations on symbolic (VBVR-Bench) and general-purpose (RULER-Bench) video reasoning benchmarks show that the proposed method yields a 16.7-point average performance gain, outperforming the VLM-as-Solver paradigm (+0.4 points) and Best-of-N scaling (+2.2 points) by a large margin at comparable test-time cost. These findings reveal that integrating VLMs as test-time teachers offers a promising paradigm for achieving generalizable video reasoning. Project Page: https://VLM-as-Teacher.github.io/