Open-o3 Vidéo : Raisonnement vidéo fondé sur des preuves spatio-temporelles explicites
Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence
October 23, 2025
papers.authors: Jiahao Meng, Xiangtai Li, Haochen Wang, Yue Tan, Tao Zhang, Lingdong Kong, Yunhai Tong, Anran Wang, Zhiyang Teng, Yujing Wang, Zhuochen Wang
cs.AI
papers.abstract
La plupart des modèles de raisonnement vidéo génèrent uniquement des traces de raisonnement textuelles sans indiquer quand et où les preuves clés apparaissent. Des modèles récents comme OpenAI-o3 ont suscité un vif intérêt pour le raisonnement centré sur les preuves dans les images, mais étendre cette capacité aux vidéos est plus complexe, car cela nécessite un suivi temporel et une localisation spatiale conjoints à travers des scènes dynamiques. Nous présentons Open-o3 Video, un cadre non-agent qui intègre des preuves spatio-temporelles explicites dans le raisonnement vidéo, et collectons soigneusement des données d'entraînement et concevons des stratégies d'apprentissage pour relever les défis précités. Le modèle met en évidence les horodatages, objets et boîtes englobantes clés parallèlement à ses réponses, permettant d'ancrer le raisonnement dans des observations visuelles concrètes. Pour permettre cette fonctionnalité, nous constituons d'abord deux jeux de données de haute qualité, STGR-CoT-30k pour le SFT et STGR-RL-36k pour le RL, avec des annotations temporelles et spatiales soigneusement construites, car la plupart des jeux de données existants proposent soit des intervalles temporels pour les vidéos, soit des boîtes spatiales sur les images, manquant de supervision spatio-temporelle unifiée et de traces de raisonnement. Ensuite, nous adoptons une stratégie d'apprentissage par renforcement à froid avec de multiples récompenses spécialement conçues qui encouragent conjointement la précision des réponses, l'alignement temporel et la précision spatiale. Sur le benchmark V-STAR, Open-o3 Video obtient des performances de pointe, augmentant le mAM de 14,4 % et le mLGM de 24,2 % par rapport à la baseline Qwen2.5-VL. Des améliorations constantes sont également observées sur un large éventail de benchmarks de compréhension vidéo, incluant VideoMME, WorldSense, VideoMMMU et TVGBench. Au-delà de la précision, les traces de raisonnement produites par Open-o3 Video fournissent également des signaux précieux pour le scaling au moment du test, permettant une vérification tenant compte de la confiance et améliorant la fiabilité des réponses.
English
Most video reasoning models only generate textual reasoning traces without
indicating when and where key evidence appears. Recent models such as OpenAI-o3
have sparked wide interest in evidence-centered reasoning for images, yet
extending this ability to videos is more challenging, as it requires joint
temporal tracking and spatial localization across dynamic scenes. We introduce
Open-o3 Video, a non-agent framework that integrates explicit spatio-temporal
evidence into video reasoning, and carefully collect training data and design
training strategies to address the aforementioned challenges. The model
highlights key timestamps, objects, and bounding boxes alongside its answers,
allowing reasoning to be grounded in concrete visual observations. To enable
this functionality, we first curate and build two high-quality datasets,
STGR-CoT-30k for SFT and STGR-RL-36k for RL, with carefully constructed
temporal and spatial annotations, since most existing datasets offer either
temporal spans for videos or spatial boxes on images, lacking unified
spatio-temporal supervision and reasoning traces. Then, we adopt a cold-start
reinforcement learning strategy with multiple specially designed rewards that
jointly encourage answer accuracy, temporal alignment, and spatial precision.
On V-STAR benchmark, Open-o3 Video achieves state-of-the-art performance,
raising mAM by 14.4% and mLGM by 24.2% on the Qwen2.5-VL baseline. Consistent
improvements are also observed on a broad range of video understanding
benchmarks, including VideoMME, WorldSense, VideoMMMU, and TVGBench. Beyond
accuracy, the reasoning traces produced by Open-o3 Video also provide valuable
signals for test-time scaling, enabling confidence-aware verification and
improving answer reliability.