ChatPaper.aiChatPaper

Werkzeuggestützte raumzeitliche Reasoningverfahren zur Vereinfachung von Video-Frage-Antwort-Aufgaben

Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task

December 11, 2025
papers.authors: Sunqi Fan, Jiashuo Cui, Meng-Hao Guo, Shuojin Yang
cs.AI

papers.abstract

Die Aufgabe der Video-Fragebeantwortung (VideoQA) dient als entscheidendes Testfeld, um zu bewerten, ob Foundation-Modelle dynamische Szenarien der realen Welt effektiv wahrnehmen, verstehen und darüber schlussfolgern können. Allerdings haben bestehende multimodale große Sprachmodelle (MLLMs) Schwierigkeiten, gleichzeitig räumliche Beziehungen innerhalb von Videobildern zu modellieren und die kausale Dynamik der zeitlichen Entwicklung bei komplexen und schlussfolgerungsintensiven VideoQA-Aufgaben zu verstehen. In dieser Arbeit statten wir MLLMs mit einem umfassenden und erweiterbaren Video-Toolkit aus, um deren raumzeitliche Schlussfolgerungsfähigkeiten zu verbessern und die Harmonie zwischen Menge und Vielfalt der Werkzeuge sicherzustellen. Um die Werkzeugaufrufsequenz besser zu steuern und Probleme mit Toolchain-Verkürzungen zu vermeiden, schlagen wir ein raumzeitliches Reasoning-Framework (STAR) vor, das zeitliche und räumliche Werkzeuge strategisch plant und so schrittweise den Schlüsselbereich im Video lokalisiert. Unser STAR-Framework verbessert GPT-4o durch leichte Werkzeuge und erzielt einen Zuwachs von 8,2 % auf VideoMME und 4,6 % auf LongVideoBench. Wir sind überzeugt, dass unser vorgeschlagenes Video-Toolkit und STAR-Framework einen wichtigen Schritt in Richtung autonomer und intelligenter Videoanalyse-Assistenten darstellen. Der Code ist öffentlich unter https://github.com/fansunqi/VideoTool verfügbar.
English
Video Question Answering (VideoQA) task serves as a critical playground for evaluating whether foundation models can effectively perceive, understand, and reason about dynamic real-world scenarios. However, existing Multimodal Large Language Models (MLLMs) struggle with simultaneously modeling spatial relationships within video frames and understanding the causal dynamics of temporal evolution on complex and reasoning-intensive VideoQA task. In this work, we equip MLLM with a comprehensive and extensible Video Toolkit, to enhance MLLM's spatiotemporal reasoning capabilities and ensure the harmony between the quantity and diversity of tools. To better control the tool invocation sequence and avoid toolchain shortcut issues, we propose a Spatiotemporal Reasoning Framework (STAR) that strategically schedules temporal and spatial tools, thereby progressively localizing the key area in the video. Our STAR framework enhances GPT-4o using lightweight tools, achieving an 8.2% gain on VideoMME and 4.6% on LongVideoBench. We believe that our proposed Video Toolkit and STAR framework make an important step towards building autonomous and intelligent video analysis assistants. The code is publicly available at https://github.com/fansunqi/VideoTool.
PDF42February 7, 2026