Open-o3 Video: Ragionamento Video Radicato con Evidenze Spazio-Temporali Esplicite
Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence
October 23, 2025
Autori: Jiahao Meng, Xiangtai Li, Haochen Wang, Yue Tan, Tao Zhang, Lingdong Kong, Yunhai Tong, Anran Wang, Zhiyang Teng, Yujing Wang, Zhuochen Wang
cs.AI
Abstract
La maggior parte dei modelli di ragionamento video genera solo tracce di ragionamento testuali senza indicare quando e dove appare l'evidenza chiave. Modelli recenti come OpenAI-o3 hanno suscitato grande interesse nel ragionamento centrato sull'evidenza per le immagini, ma estendere questa capacità ai video è più impegnativo, poiché richiede il tracciamento temporale e la localizzazione spaziale congiunta attraverso scene dinamiche. Introduciamo Open-o3 Video, un framework non-agent che integra evidenze spazio-temporali esplicite nel ragionamento video, e raccogliamo accuratamente dati di addestramento e progettiamo strategie di training per affrontare le suddette sfide. Il modello evidenzia timestamp, oggetti e bounding box chiave insieme alle sue risposte, permettendo al ragionamento di essere ancorato a osservazioni visive concrete. Per abilitare questa funzionalità, curiamo e costruiamo prima due dataset di alta qualità, STGR-CoT-30k per il SFT e STGR-RL-36k per il RL, con annotazioni temporali e spaziali accuratamente costruite, poiché la maggior parte dei dataset esistenti offre o span temporali per i video o box spaziali sulle immagini, mancando di una supervisione e tracce di ragionamento spazio-temporale unificata. Successivamente, adottiamo una strategia di reinforcement learning a freddo con ricompense multiple appositamente progettate che incoraggiano congiuntamente l'accuratezza della risposta, l'allineamento temporale e la precisione spaziale. Sul benchmark V-STAR, Open-o3 Video raggiunge prestazioni state-of-the-art, aumentando il mAM del 14.4% e il mLGM del 24.2% rispetto al baseline Qwen2.5-VL. Miglioramenti consistenti sono osservati anche su un'ampia gamma di benchmark di comprensione video, inclusi VideoMME, WorldSense, VideoMMMU e TVGBench. Oltre all'accuratezza, le tracce di ragionamento prodotte da Open-o3 Video forniscono anche segnali preziosi per il scaling al test-time, abilitando una verifica confidence-aware e migliorando l'affidabilità delle risposte.
English
Most video reasoning models only generate textual reasoning traces without
indicating when and where key evidence appears. Recent models such as OpenAI-o3
have sparked wide interest in evidence-centered reasoning for images, yet
extending this ability to videos is more challenging, as it requires joint
temporal tracking and spatial localization across dynamic scenes. We introduce
Open-o3 Video, a non-agent framework that integrates explicit spatio-temporal
evidence into video reasoning, and carefully collect training data and design
training strategies to address the aforementioned challenges. The model
highlights key timestamps, objects, and bounding boxes alongside its answers,
allowing reasoning to be grounded in concrete visual observations. To enable
this functionality, we first curate and build two high-quality datasets,
STGR-CoT-30k for SFT and STGR-RL-36k for RL, with carefully constructed
temporal and spatial annotations, since most existing datasets offer either
temporal spans for videos or spatial boxes on images, lacking unified
spatio-temporal supervision and reasoning traces. Then, we adopt a cold-start
reinforcement learning strategy with multiple specially designed rewards that
jointly encourage answer accuracy, temporal alignment, and spatial precision.
On V-STAR benchmark, Open-o3 Video achieves state-of-the-art performance,
raising mAM by 14.4% and mLGM by 24.2% on the Qwen2.5-VL baseline. Consistent
improvements are also observed on a broad range of video understanding
benchmarks, including VideoMME, WorldSense, VideoMMMU, and TVGBench. Beyond
accuracy, the reasoning traces produced by Open-o3 Video also provide valuable
signals for test-time scaling, enabling confidence-aware verification and
improving answer reliability.