VLMs zijn goede leraren voor videoredeneren via adaptieve testtijdoptimalisatie.

Samenvatting

Het recente "Redeneren met Video"-paradigma maakt gebruik van Video Generatie Modellen (VGM's) om temporeel coherente visuele trajecten te genereren voor het voltooien van redeneertaken. Hoewel state-of-the-art VGM's uitblinken in visuele kwaliteit, hebben ze vaak moeite om taakspecifieke regels te begrijpen en op te volgen, wat leidt tot logische mislukkingen in diverse redeneerscenario's. Bestaande pogingen maken gebruik van Visie-Taal Modellen (VTM's) als probleemoplossers vooraf om tekstuele aanwijzingen voor de VGM te produceren of te verfijnen. Tekstuele beschrijvingen slagen er echter niet in om complexe ruimtelijk-temporele details vast te leggen, en VGM's hebben vaak moeite om fijnmazige of langstaartinstructies getrouw uit te voeren, zelfs met een geldig plan. Hoewel VTM's moeite hebben als oplossers, beschikken ze over sterke perceptiemogelijkheden om de naleving van procesbeperkingen en het bereiken van einddoelen te evalueren. Door gebruik te maken van deze kracht introduceren we een paradigmaverschuiving die de rol van VTM's verandert naar "docenten". Specifiek haalt een VTM-docent taakspecifieke regels uit om differentieerbare beloningen te formuleren, die een VGM-redeneerder begeleiden via testtijd online optimalisatie van een lichtgewicht LoRA-module. Deze strategie maakt adaptieve testtijdoptimalisatie mogelijk en breidt de redeneermogelijkheden uit voorbij de intrinsieke grenzen van de VGM. Evaluaties op symbolische (VBVR-Bench) en algemene (RULER-Bench) video-redeneerbenchmarks tonen aan dat de voorgestelde methode een gemiddelde prestatieverbetering van 16,7 punten oplevert, waarmee het VTM-als-Oplosser-paradigma (+0,4 punten) en Best-of-N-schaling (+2,2 punten) met een ruime marge overtreft bij vergelijkbare testtijdkosten. Deze bevindingen onthullen dat het integreren van VTM's als testtijd-docenten een veelbelovend paradigma biedt voor het bereiken van generaliseerbaar video-redeneren. Projectpagina: https://VLM-as-Teacher.github.io/

English

The recent "Reasoning with Video" paradigm utilizes Video Generation Models (VGMs) to generate temporally coherent visual trajectories to complete reasoning tasks. Although state-of-the-art VGMs excel at visual quality, they often struggle to understand and follow task-specific rules, leading to logical failures across diverse reasoning scenarios. Existing efforts try to utilize Vision-Language Models (VLMs) as problem pre-solvers to produce or refine textual guidance for the VGM. However, textual descriptions fail to capture intricate spatiotemporal details, and VGMs often struggle to faithfully execute fine-grained or long-tail instructions even with a valid plan. While VLMs struggle as solvers, they possess strong perception capabilities to evaluate process-constraint satisfaction and final-goal achievement. Leveraging this strength, we introduce a paradigm shift that transitions the role of VLMs to "teachers". Specifically, a VLM teacher extracts task-specific rules to formulate differentiable rewards, guiding a VGM Reasoner via test-time online optimization of a lightweight LoRA module. This strategy enables adaptive test-time optimization and extends the reasoning capabilities beyond the VGM's intrinsic boundaries. Evaluations on symbolic (VBVR-Bench) and general-purpose (RULER-Bench) video reasoning benchmarks show that the proposed method yields a 16.7-point average performance gain, outperforming the VLM-as-Solver paradigm (+0.4 points) and Best-of-N scaling (+2.2 points) by a large margin at comparable test-time cost. These findings reveal that integrating VLMs as test-time teachers offers a promising paradigm for achieving generalizable video reasoning. Project Page: https://VLM-as-Teacher.github.io/