Open-o3 비디오: 명시적 시공간 증거를 활용한 근거 기반 비디오 추론
Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence
October 23, 2025
저자: Jiahao Meng, Xiangtai Li, Haochen Wang, Yue Tan, Tao Zhang, Lingdong Kong, Yunhai Tong, Anran Wang, Zhiyang Teng, Yujing Wang, Zhuochen Wang
cs.AI
초록
대부분의 비디오 추론 모델은 언제, 어디서 핵심 증거가 나타나는지 표시하지 않은 채 텍스트 기반 추론 흔적만 생성합니다. OpenAI-o3와 같은 최신 모델이 이미지에 대한 증거 중심 추론 분야에서 폭넓은 관심을 불러일으켰지만, 이러한 능력을 비디오로 확장하는 것은 동적 장면에서의 시간적 추적과 공간적 위치 파악을 동시에 수행해야 하므로 더욱 어려운 과제입니다. 본 연구에서는 명시적인 시공간 증거를 비디오 추론에 통합하는 비-에이전트 프레임워크인 Open-o3 Video를 소개하며, 앞서 언급한 과제를 해결하기 위해 신중하게 훈련 데이터를 수집하고 훈련 전략을 설계합니다. 이 모델은 답변과 함께 핵심 타임스탬프, 객체, 바운딩 박스를 강조표시하여 구체적인 시각적 관찰에 기반한 추론이 가능하도록 합니다.
이러한 기능을 구현하기 위해, 기존 데이터셋 대부분이 비디오에 대한 시간적 범위 또는 이미지에 대한 공간적 박스만 제공하여 통합된 시공간 감독과 추론 흔적이 부족하기 때문에, 신중하게 구성된 시간 및 공간 주석을 가진 SFT용 STGR-CoT-30k와 RL용 STGR-RL-36k라는 두 가지 고품질 데이터셋을 먼저 선별 및 구축합니다. 그런 다음, 답변 정확도, 시간적 정렬, 공간적 정밀도를 함께 장려하기 위해 특별히 설계된 다중 보상을 활용한 콜드-스타트 강화 학습 전략을 채택합니다. V-STAR 벤치마크에서 Open-o3 Video는 최첨단 성능을 달성하여 Qwen2.5-VL 기준선 대비 mAM을 14.4%, mLGM을 24.2% 향상시켰습니다. VideoMME, WorldSense, VideoMMMU, TVGBench 등 다양한 비디오 이해 벤치마크에서도 일관된 성능 향상이 관찰됩니다. 정확도 외에도 Open-o3 Video가 생성하는 추론 흔적은 테스트 시간 스케일링을 위한 가치 있는 신호를 제공하여 신뢰도 인식 검증을 가능하게 하고 답변의 신뢰성을 높입니다.
English
Most video reasoning models only generate textual reasoning traces without
indicating when and where key evidence appears. Recent models such as OpenAI-o3
have sparked wide interest in evidence-centered reasoning for images, yet
extending this ability to videos is more challenging, as it requires joint
temporal tracking and spatial localization across dynamic scenes. We introduce
Open-o3 Video, a non-agent framework that integrates explicit spatio-temporal
evidence into video reasoning, and carefully collect training data and design
training strategies to address the aforementioned challenges. The model
highlights key timestamps, objects, and bounding boxes alongside its answers,
allowing reasoning to be grounded in concrete visual observations. To enable
this functionality, we first curate and build two high-quality datasets,
STGR-CoT-30k for SFT and STGR-RL-36k for RL, with carefully constructed
temporal and spatial annotations, since most existing datasets offer either
temporal spans for videos or spatial boxes on images, lacking unified
spatio-temporal supervision and reasoning traces. Then, we adopt a cold-start
reinforcement learning strategy with multiple specially designed rewards that
jointly encourage answer accuracy, temporal alignment, and spatial precision.
On V-STAR benchmark, Open-o3 Video achieves state-of-the-art performance,
raising mAM by 14.4% and mLGM by 24.2% on the Qwen2.5-VL baseline. Consistent
improvements are also observed on a broad range of video understanding
benchmarks, including VideoMME, WorldSense, VideoMMMU, and TVGBench. Beyond
accuracy, the reasoning traces produced by Open-o3 Video also provide valuable
signals for test-time scaling, enabling confidence-aware verification and
improving answer reliability.