Gereedschapsondersteund ruimtelijk-temporeel redeneren voor stroomlijning van video-vraag-antwoordtaken
Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task
December 11, 2025
Auteurs: Sunqi Fan, Jiashuo Cui, Meng-Hao Guo, Shuojin Yang
cs.AI
Samenvatting
De Video Question Answering (VideoQA)-taak fungeert als een cruciaal platform om te evalueren of foundation-modellen dynamische scenario's uit de echte wereld effectief kunnen waarnemen, begrijpen en interpreteren. Bestaande Multimodale Large Language Models (MLLM's) hebben echter moeite met het gelijktijdig modelleren van ruimtelijke relaties binnen videoframes en het begrijpen van de causale dynamiek van temporele evolutie bij complexe en reasoning-intensieve VideoQA-taken. In dit werk rusten we MLLM's uit met een uitgebreide en uitbreidbare Video Toolkit om hun ruimtelijk-temporele redeneervermogen te verbeteren en de harmonie tussen de hoeveelheid en diversiteit van tools te waarborgen. Om de aanroepvolgorde van tools beter te controleren en shortcut-problemen in de toolchain te vermijden, stellen we een Spatiotemporal Reasoning Framework (STAR) voor dat strategisch temporele en ruimtelijke tools inplant, waardoor het sleutelgebied in de video progressief gelokaliseerd wordt. Ons STAR-framework verbetert GPT-4o met lichtgewicht tools en behaalt een winst van 8,2% op VideoMME en 4,6% op LongVideoBench. Wij geloven dat onze voorgestelde Video Toolkit en STAR-framework een belangrijke stap vormen naar de ontwikkeling van autonome en intelligente video-analyse-assistenten. De code is openbaar beschikbaar op https://github.com/fansunqi/VideoTool.
English
Video Question Answering (VideoQA) task serves as a critical playground for evaluating whether foundation models can effectively perceive, understand, and reason about dynamic real-world scenarios. However, existing Multimodal Large Language Models (MLLMs) struggle with simultaneously modeling spatial relationships within video frames and understanding the causal dynamics of temporal evolution on complex and reasoning-intensive VideoQA task. In this work, we equip MLLM with a comprehensive and extensible Video Toolkit, to enhance MLLM's spatiotemporal reasoning capabilities and ensure the harmony between the quantity and diversity of tools. To better control the tool invocation sequence and avoid toolchain shortcut issues, we propose a Spatiotemporal Reasoning Framework (STAR) that strategically schedules temporal and spatial tools, thereby progressively localizing the key area in the video. Our STAR framework enhances GPT-4o using lightweight tools, achieving an 8.2% gain on VideoMME and 4.6% on LongVideoBench. We believe that our proposed Video Toolkit and STAR framework make an important step towards building autonomous and intelligent video analysis assistants. The code is publicly available at https://github.com/fansunqi/VideoTool.