VLMs sind gute Lehrer für das Video-Reasoning durch adaptive Testzeit-Optimierung.

Zusammenfassung

Das aktuelle "Reasoning with Video"-Paradigma nutzt Videogenerierungsmodelle (VGMs), um zeitlich kohärente visuelle Trajektorien zur Lösung von Reasoning-Aufgaben zu erzeugen. Obwohl hochmoderne VGMs in der visuellen Qualität herausragend sind, fällt es ihnen oft schwer, aufgabenspezifische Regeln zu verstehen und zu befolgen, was zu logischen Fehlern in verschiedenen Reasoning-Szenarien führt. Bisherige Bemühungen versuchen, Vision-Language-Modelle (VLM) als Problemlöser vorab einzusetzen, um textuelle Anleitungen für das VGM zu erstellen oder zu verfeinern. Allerdings gelingt es textuellen Beschreibungen nicht, komplexe raumzeitliche Details zu erfassen, und VGMs haben oft Schwierigkeiten, feinkörnige oder langschwänzige Anweisungen selbst bei einem gültigen Plan getreu auszuführen. Während VLMs als Löser Schwierigkeiten haben, besitzen sie starke Wahrnehmungsfähigkeiten, um die Einhaltung von Prozessbeschränkungen und das Erreichen des Endziels zu bewerten. Diese Stärke nutzend, führen wir einen Paradigmenwechsel ein, der die Rolle von VLMs zu "Lehrern" wandelt. Konkret extrahiert ein VLM-Lehrer aufgabenspezifische Regeln, um differenzierbare Belohnungen zu formulieren, und leitet einen VGM-Reasoner durch eine Online-Optimierung eines leichten LoRA-Moduls zur Testzeit an. Diese Strategie ermöglicht eine adaptive Optimierung zur Testzeit und erweitert die Reasoning-Fähigkeiten über die intrinsischen Grenzen des VGM hinaus. Evaluierungen auf symbolischen (VBVR-Bench) und allgemeinen (RULER-Bench) Video-Reasoning-Benchmarks zeigen, dass die vorgeschlagene Methode einen durchschnittlichen Leistungsgewinn von 16,7 Punkten erzielt und damit das VLM-als-Löser-Paradigma (+0,4 Punkte) und Best-of-N-Skalierung (+2,2 Punkte) bei vergleichbaren Testzeitkosten deutlich übertrifft. Diese Ergebnisse zeigen, dass die Integration von VLMs als Testzeit-Lehrer ein vielversprechendes Paradigma für die Erzielung von generalisierbarem Video-Reasoning bietet. Projektseite: https://VLM-as-Teacher.github.io/

English

The recent "Reasoning with Video" paradigm utilizes Video Generation Models (VGMs) to generate temporally coherent visual trajectories to complete reasoning tasks. Although state-of-the-art VGMs excel at visual quality, they often struggle to understand and follow task-specific rules, leading to logical failures across diverse reasoning scenarios. Existing efforts try to utilize Vision-Language Models (VLMs) as problem pre-solvers to produce or refine textual guidance for the VGM. However, textual descriptions fail to capture intricate spatiotemporal details, and VGMs often struggle to faithfully execute fine-grained or long-tail instructions even with a valid plan. While VLMs struggle as solvers, they possess strong perception capabilities to evaluate process-constraint satisfaction and final-goal achievement. Leveraging this strength, we introduce a paradigm shift that transitions the role of VLMs to "teachers". Specifically, a VLM teacher extracts task-specific rules to formulate differentiable rewards, guiding a VGM Reasoner via test-time online optimization of a lightweight LoRA module. This strategy enables adaptive test-time optimization and extends the reasoning capabilities beyond the VGM's intrinsic boundaries. Evaluations on symbolic (VBVR-Bench) and general-purpose (RULER-Bench) video reasoning benchmarks show that the proposed method yields a 16.7-point average performance gain, outperforming the VLM-as-Solver paradigm (+0.4 points) and Best-of-N scaling (+2.2 points) by a large margin at comparable test-time cost. These findings reveal that integrating VLMs as test-time teachers offers a promising paradigm for achieving generalizable video reasoning. Project Page: https://VLM-as-Teacher.github.io/