papers.description
Jüngste Fortschritte bei generativen Videomodellen, wie Veo-3, haben überraschende Zero-Shot-Fähigkeiten im Bereich des logischen Denkens gezeigt, was einen wachsenden Bedarf an systematischer und zuverlässiger Bewertung schafft. Wir stellen V-ReasonBench vor, einen Benchmark, der entwickelt wurde, um das videobasierte Denken in vier Schlüsseldimensionen zu bewerten: strukturiertes Problemlösen, räumliche Wahrnehmung, musterbasierte Inferenz und physikalische Dynamik. Der Benchmark basiert auf sowohl synthetischen als auch realen Bildsequenzen und bietet eine vielfältige Sammlung von Aufgaben mit überprüfbaren Antworten, die reproduzierbar, skalierbar und eindeutig sind. Die Bewertung von sechs modernsten Videomodellen zeigt deutliche Unterschiede in den einzelnen Dimensionen, mit starken Variationen in strukturiertem, räumlichem, musterbasiertem und physikalischem Denken. Wir vergleichen Videomodelle weiterhin mit leistungsstarken Bildmodellen, analysieren häufige Halluzinationsverhalten und untersuchen, wie die Videodauer das Chain-of-Frames-Denken beeinflusst. Insgesamt bietet V-ReasonBench einen einheitlichen und reproduzierbaren Rahmen zur Messung des videobasierten Denkens und zielt darauf ab, die Entwicklung von Modellen mit zuverlässigeren, menschenähnlichen Denkfähigkeiten zu unterstützen.