Open-o3 Video: Begründete Videobewertung mit expliziten räumlich-zeitlichen Beweisen
Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence
October 23, 2025
papers.authors: Jiahao Meng, Xiangtai Li, Haochen Wang, Yue Tan, Tao Zhang, Lingdong Kong, Yunhai Tong, Anran Wang, Zhiyang Teng, Yujing Wang, Zhuochen Wang
cs.AI
papers.abstract
Die meisten Videoverständnismodelle generieren lediglich textuelle Begründungstraces, ohne anzugeben, wann und wo Schlüsselevidenzen auftreten. Neuere Modelle wie OpenAI-o3 haben breites Interesse an evidenzzentriertem Schließen für Bilder geweckt, doch die Übertragung dieser Fähigkeit auf Videos ist herausfordernder, da sie gemeinsames zeitliches Tracking und räumliche Lokalisierung über dynamische Szenen hinweg erfordert. Wir stellen Open-o3 Video vor, ein nicht-agentenbasiertes Framework, das explizite raumzeitliche Evidenz in die Videoverarbeitung integriert, und erheben sorgfältig Trainingsdaten sowie entwerfen Trainingsstrategien, um die genannten Herausforderungen zu adressieren. Das Modell hebt neben seinen Antworten Schlüsselzeitpunkte, Objekte und Bounding-Boxen hervor, wodurch das Schließen auf konkreten visuellen Beobachtungen basiert. Um diese Funktionalität zu ermöglichen, kuratieren wir zunächst zwei hochwertige Datensätze: STGR-CoT-30k für SFT und STGR-RL-36k für RL, mit sorgfältig konstruierten temporalen und räumlichen Annotationen, da die meisten bestehenden Datensätze entweder Zeitspannen für Videos oder räumliche Boxen für Bilder bieten, jedoch vereinheitlichte raumzeitliche Supervision und Begründungstraces fehlen. Anschließend wenden wir eine Cold-Start-Verstärkungslernstrategie mit mehreren speziell designed Belohnungen an, die gemeinsam Antwortgenauigkeit, temporale Ausrichtung und räumliche Präzision fördern. Auf dem V-STAR-Benchmark erzielt Open-o3 Video state-of-the-art Leistung und steigert mAM um 14,4 % und mLGM um 24,2 % gegenüber der Qwen2.5-VL-Basislinie. Konsistente Verbesserungen zeigen sich auch auf einer breiten Palette von Videoverständnis-Benchmarks, darunter VideoMME, WorldSense, VideoMMMU und TVGBench. Über die Genauigkeit hinaus liefern die von Open-o3 Video produzierten Begründungstraces auch wertvolle Signale für Test-Time-Scaling, ermöglichen konfidenzbewusste Verifikation und verbessern die Antwortzuverlässigkeit.
English
Most video reasoning models only generate textual reasoning traces without
indicating when and where key evidence appears. Recent models such as OpenAI-o3
have sparked wide interest in evidence-centered reasoning for images, yet
extending this ability to videos is more challenging, as it requires joint
temporal tracking and spatial localization across dynamic scenes. We introduce
Open-o3 Video, a non-agent framework that integrates explicit spatio-temporal
evidence into video reasoning, and carefully collect training data and design
training strategies to address the aforementioned challenges. The model
highlights key timestamps, objects, and bounding boxes alongside its answers,
allowing reasoning to be grounded in concrete visual observations. To enable
this functionality, we first curate and build two high-quality datasets,
STGR-CoT-30k for SFT and STGR-RL-36k for RL, with carefully constructed
temporal and spatial annotations, since most existing datasets offer either
temporal spans for videos or spatial boxes on images, lacking unified
spatio-temporal supervision and reasoning traces. Then, we adopt a cold-start
reinforcement learning strategy with multiple specially designed rewards that
jointly encourage answer accuracy, temporal alignment, and spatial precision.
On V-STAR benchmark, Open-o3 Video achieves state-of-the-art performance,
raising mAM by 14.4% and mLGM by 24.2% on the Qwen2.5-VL baseline. Consistent
improvements are also observed on a broad range of video understanding
benchmarks, including VideoMME, WorldSense, VideoMMMU, and TVGBench. Beyond
accuracy, the reasoning traces produced by Open-o3 Video also provide valuable
signals for test-time scaling, enabling confidence-aware verification and
improving answer reliability.