Open-o3 Vídeo: Raciocínio em Vídeo Fundamentado com Evidências Espaço-Temporais Explícitas
Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence
October 23, 2025
Autores: Jiahao Meng, Xiangtai Li, Haochen Wang, Yue Tan, Tao Zhang, Lingdong Kong, Yunhai Tong, Anran Wang, Zhiyang Teng, Yujing Wang, Zhuochen Wang
cs.AI
Resumo
A maioria dos modelos de raciocínio em vídeo gera apenas traços de raciocínio textuais sem indicar quando e onde as evidências-chave aparecem. Modelos recentes como o OpenAI-o3 despertaram grande interesse no raciocínio centrado em evidências para imagens, mas estender essa capacidade para vídeos é mais desafiador, pois requer o rastreamento temporal conjunto e a localização espacial em cenas dinâmicas. Apresentamos o Open-o3 Video, uma estrutura não-agente que integra evidências espaço-temporais explícitas no raciocínio em vídeo, e recolhemos cuidadosamente dados de treino e projetamos estratégias de treino para enfrentar os desafios mencionados. O modelo destaca os *timestamps* chave, objetos e *bounding boxes* juntamente com as suas respostas, permitindo que o raciocínio seja fundamentado em observações visuais concretas. Para permitir esta funcionalidade, primeiro curamos e construímos dois conjuntos de dados de alta qualidade, o STGR-CoT-30k para SFT (*Supervised Fine-Tuning*) e o STGR-RL-36k para RL (*Reinforcement Learning*), com anotações temporais e espaciais cuidadosamente construídas, uma vez que a maioria dos conjuntos de dados existentes oferece ou *spans* temporais para vídeos ou *boxes* espaciais em imagens, carecendo de supervisão espaço-temporal unificada e traços de raciocínio. Em seguida, adotamos uma estratégia de aprendizagem por reforço com arranque a frio (*cold-start*) com múltiplas recompensas especialmente desenhadas que incentivam conjuntamente a precisão da resposta, o alinhamento temporal e a precisão espacial. No benchmark V-STAR, o Open-o3 Video alcança um desempenho de última geração (*state-of-the-art*), elevando o mAM em 14.4% e o mLGM em 24.2% sobre a linha de base do Qwen2.5-VL. Melhorias consistentes são também observadas numa ampla gama de benchmarks de compreensão de vídeo, incluindo VideoMME, WorldSense, VideoMMMU e TVGBench. Para além da precisão, os traços de raciocínio produzidos pelo Open-o3 Video também fornecem sinais valiosos para escalagem em tempo de teste (*test-time scaling*), permitindo verificação consciente da confiança (*confidence-aware*) e melhorando a fiabilidade das respostas.
English
Most video reasoning models only generate textual reasoning traces without
indicating when and where key evidence appears. Recent models such as OpenAI-o3
have sparked wide interest in evidence-centered reasoning for images, yet
extending this ability to videos is more challenging, as it requires joint
temporal tracking and spatial localization across dynamic scenes. We introduce
Open-o3 Video, a non-agent framework that integrates explicit spatio-temporal
evidence into video reasoning, and carefully collect training data and design
training strategies to address the aforementioned challenges. The model
highlights key timestamps, objects, and bounding boxes alongside its answers,
allowing reasoning to be grounded in concrete visual observations. To enable
this functionality, we first curate and build two high-quality datasets,
STGR-CoT-30k for SFT and STGR-RL-36k for RL, with carefully constructed
temporal and spatial annotations, since most existing datasets offer either
temporal spans for videos or spatial boxes on images, lacking unified
spatio-temporal supervision and reasoning traces. Then, we adopt a cold-start
reinforcement learning strategy with multiple specially designed rewards that
jointly encourage answer accuracy, temporal alignment, and spatial precision.
On V-STAR benchmark, Open-o3 Video achieves state-of-the-art performance,
raising mAM by 14.4% and mLGM by 24.2% on the Qwen2.5-VL baseline. Consistent
improvements are also observed on a broad range of video understanding
benchmarks, including VideoMME, WorldSense, VideoMMMU, and TVGBench. Beyond
accuracy, the reasoning traces produced by Open-o3 Video also provide valuable
signals for test-time scaling, enabling confidence-aware verification and
improving answer reliability.