ChatPaper.aiChatPaper

Open-o3 Video: 明示的時空間エビデンスに基づく映像推論

Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence

October 23, 2025
著者: Jiahao Meng, Xiangtai Li, Haochen Wang, Yue Tan, Tao Zhang, Lingdong Kong, Yunhai Tong, Anran Wang, Zhiyang Teng, Yujing Wang, Zhuochen Wang
cs.AI

要旨

大半の映像推論モデルは、テキストによる推論過程を生成するのみで、重要な証拠がいつ・どこに現れるかを示しません。OpenAI-o3のような最近のモデルは、画像における証拠中心の推論に広範な関心を集めていますが、この能力を映像に拡張することはより困難です。動的なシーンにおいて時間的追跡と空間的定位を同時に行う必要があるためです。我々はOpen-o3 Videoを提案します。これは明示的な時空間的証拠を映像推論に統合する非エージェント型フレームワークであり、前述の課題に対処するため、訓練データを注意深く収集し、訓練戦略を設計しました。本モデルは回答と併せて、重要なタイムスタンプ、オブジェクト、バウンディングボックスを強調表示し、推論を具体的な視覚的観察に基づかせます。 この機能を実現するため、我々はまず二つの高品質データセット、SFT用のSTGR-CoT-30kとRL用のSTGR-RL-36kを構築しました。既存データセットの大半は、映像に対する時間スパンまたは画像に対する空間ボックスのいずれかしか提供しておらず、統一された時空間的監督と推論過程を欠いていたためです。次に、回答精度、時間的整合性、空間的精度を同時に促進する複数の特別設計報酬を用いた、コールドスタート強化学習戦略を採用しました。 V-STARベンチマークにおいて、Open-o3 Videoは最先端の性能を達成し、Qwen2.5-VLベースラインに対しmAMを14.4%、mLGMを24.2%向上させました。VideoMME、WorldSense、VideoMMMU、TVGBenchなど、幅広い映像理解ベンチマークでも一貫した改善が確認されています。精度を超えて、Open-o3 Videoが生成する推論過程は、テスト時スケーリングに対する貴重な信号を提供し、信頼度を考慮した検証を可能にし、回答の信頼性を向上させます。
English
Most video reasoning models only generate textual reasoning traces without indicating when and where key evidence appears. Recent models such as OpenAI-o3 have sparked wide interest in evidence-centered reasoning for images, yet extending this ability to videos is more challenging, as it requires joint temporal tracking and spatial localization across dynamic scenes. We introduce Open-o3 Video, a non-agent framework that integrates explicit spatio-temporal evidence into video reasoning, and carefully collect training data and design training strategies to address the aforementioned challenges. The model highlights key timestamps, objects, and bounding boxes alongside its answers, allowing reasoning to be grounded in concrete visual observations. To enable this functionality, we first curate and build two high-quality datasets, STGR-CoT-30k for SFT and STGR-RL-36k for RL, with carefully constructed temporal and spatial annotations, since most existing datasets offer either temporal spans for videos or spatial boxes on images, lacking unified spatio-temporal supervision and reasoning traces. Then, we adopt a cold-start reinforcement learning strategy with multiple specially designed rewards that jointly encourage answer accuracy, temporal alignment, and spatial precision. On V-STAR benchmark, Open-o3 Video achieves state-of-the-art performance, raising mAM by 14.4% and mLGM by 24.2% on the Qwen2.5-VL baseline. Consistent improvements are also observed on a broad range of video understanding benchmarks, including VideoMME, WorldSense, VideoMMMU, and TVGBench. Beyond accuracy, the reasoning traces produced by Open-o3 Video also provide valuable signals for test-time scaling, enabling confidence-aware verification and improving answer reliability.
PDF553December 2, 2025