Open-o3 Video: Gegronde Videoredenering met Expliciet Ruimtelijk-Tijdelijk Bewijs
Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence
October 23, 2025
Auteurs: Jiahao Meng, Xiangtai Li, Haochen Wang, Yue Tan, Tao Zhang, Lingdong Kong, Yunhai Tong, Anran Wang, Zhiyang Teng, Yujing Wang, Zhuochen Wang
cs.AI
Samenvatting
De meeste videoredeneermodellen genereren alleen tekstuele redeneersporen zonder aan te geven wanneer en waar het belangrijkste bewijs verschijnt. Recente modellen zoals OpenAI-o3 hebben brede interesse gewekt in bewijsgericht redeneren voor afbeeldingen, maar het uitbreiden van deze mogelijkheid naar video's is uitdagender, omdat dit gezamenlijke temporele tracking en ruimtelijke lokalisatie in dynamische scènes vereist. Wij introduceren Open-o3 Video, een non-agent framework dat expliciete spatio-temporele bewijzen integreert in videoredenering, en verzorgen zorgvuldig trainingsdata en ontwerpen trainingsstrategieën om de genoemde uitdagingen aan te pakken. Het model markeert cruciale tijdstippen, objecten en begrenzingskaders naast zijn antwoorden, waardoor redenering kan worden verankerd in concrete visuele observaties. Om deze functionaliteit mogelijk te maken, cureren en bouwen we eerst twee hoogwaardige datasets: STGR-CoT-30k voor SFT en STGR-RL-36k voor RL, met zorgvuldig geconstrueerde temporele en ruimtelijke annotaties, aangezien de meeste bestaande datasets ofwel temporele spans voor video's ofwel ruimtelijke kaders op afbeeldingen bieden, maar uniforme spatio-temporele supervisie en redeneersporen ontbreekt. Vervolgens hanteren we een koude-start reinforcement learning-strategie met meerdere speciaal ontworpen beloningen die gezamenlijk antwoornauwkeurigheid, temporele uitlijning en ruimtelijke precisie stimuleren. Op de V-STAR-benchmark behaalt Open-o3 Video state-of-the-art prestaties, waarbij de mAM met 14.4% en de mLGM met 24.2% stijgt ten opzichte van de Qwen2.5-VL-baseline. Consistente verbeteringen worden ook waargenomen op een breed scala aan videobegripbenchmarks, waaronder VideoMME, WorldSense, VideoMMMU en TVGBench. Naast nauwkeurigheid bieden de redeneersporen gegenereerd door Open-o3 Video ook waardevolle signalen voor test-time scaling, waardoor vertrouwensbewuste verificatie mogelijk wordt en de antwoordbetrouwbaarheid verbetert.
English
Most video reasoning models only generate textual reasoning traces without
indicating when and where key evidence appears. Recent models such as OpenAI-o3
have sparked wide interest in evidence-centered reasoning for images, yet
extending this ability to videos is more challenging, as it requires joint
temporal tracking and spatial localization across dynamic scenes. We introduce
Open-o3 Video, a non-agent framework that integrates explicit spatio-temporal
evidence into video reasoning, and carefully collect training data and design
training strategies to address the aforementioned challenges. The model
highlights key timestamps, objects, and bounding boxes alongside its answers,
allowing reasoning to be grounded in concrete visual observations. To enable
this functionality, we first curate and build two high-quality datasets,
STGR-CoT-30k for SFT and STGR-RL-36k for RL, with carefully constructed
temporal and spatial annotations, since most existing datasets offer either
temporal spans for videos or spatial boxes on images, lacking unified
spatio-temporal supervision and reasoning traces. Then, we adopt a cold-start
reinforcement learning strategy with multiple specially designed rewards that
jointly encourage answer accuracy, temporal alignment, and spatial precision.
On V-STAR benchmark, Open-o3 Video achieves state-of-the-art performance,
raising mAM by 14.4% and mLGM by 24.2% on the Qwen2.5-VL baseline. Consistent
improvements are also observed on a broad range of video understanding
benchmarks, including VideoMME, WorldSense, VideoMMMU, and TVGBench. Beyond
accuracy, the reasoning traces produced by Open-o3 Video also provide valuable
signals for test-time scaling, enabling confidence-aware verification and
improving answer reliability.