Open-o3 Video: Razonamiento de Video Fundamentado con Evidencia Espacio-Temporal Explícita
Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence
October 23, 2025
Autores: Jiahao Meng, Xiangtai Li, Haochen Wang, Yue Tan, Tao Zhang, Lingdong Kong, Yunhai Tong, Anran Wang, Zhiyang Teng, Yujing Wang, Zhuochen Wang
cs.AI
Resumen
La mayoría de los modelos de razonamiento en video solo generan trazas de razonamiento textuales sin indicar cuándo y dónde aparece la evidencia clave. Modelos recientes como OpenAI-o3 han despertado un gran interés en el razonamiento centrado en evidencia para imágenes, pero extender esta capacidad a los videos es más desafiante, ya que requiere un seguimiento temporal y una localización espacial conjunta a través de escenas dinámicas. Introducimos Open-o3 Video, un marco no-agente que integra evidencia espacio-temporal explícita en el razonamiento de video, y recopilamos cuidadosamente datos de entrenamiento y diseñamos estrategias de entrenamiento para abordar los desafíos mencionados. El modelo resalta marcas de tiempo, objetos y cuadros delimitadores clave junto con sus respuestas, permitiendo que el razonamiento se base en observaciones visuales concretas. Para habilitar esta funcionalidad, primero curamos y construimos dos conjuntos de datos de alta calidad, STGR-CoT-30k para SFT y STGR-RL-36k para RL, con anotaciones temporales y espaciales cuidadosamente construidas, ya que la mayoría de los conjuntos de datos existentes ofrecen intervalos temporales para videos o cuadros espaciales en imágenes, careciendo de una supervisión y trazas de razonamiento espacio-temporal unificadas. Luego, adoptamos una estrategia de aprendizaje por refuerzo de inicio en frío con múltiples recompensas especialmente diseñadas que fomentan conjuntamente la precisión de la respuesta, la alineación temporal y la precisión espacial. En el benchmark V-STAR, Open-o3 Video logra un rendimiento state-of-the-art, aumentando la mAM en un 14.4% y la mLGM en un 24.2% sobre la línea base Qwen2.5-VL. También se observan mejoras consistentes en una amplia gama de benchmarks de comprensión de video, incluyendo VideoMME, WorldSense, VideoMMMU y TVGBench. Más allá de la precisión, las trazas de razonamiento producidas por Open-o3 Video también proporcionan señales valiosas para el escalado en tiempo de prueba, permitiendo una verificación consciente de la confianza y mejorando la fiabilidad de las respuestas.
English
Most video reasoning models only generate textual reasoning traces without
indicating when and where key evidence appears. Recent models such as OpenAI-o3
have sparked wide interest in evidence-centered reasoning for images, yet
extending this ability to videos is more challenging, as it requires joint
temporal tracking and spatial localization across dynamic scenes. We introduce
Open-o3 Video, a non-agent framework that integrates explicit spatio-temporal
evidence into video reasoning, and carefully collect training data and design
training strategies to address the aforementioned challenges. The model
highlights key timestamps, objects, and bounding boxes alongside its answers,
allowing reasoning to be grounded in concrete visual observations. To enable
this functionality, we first curate and build two high-quality datasets,
STGR-CoT-30k for SFT and STGR-RL-36k for RL, with carefully constructed
temporal and spatial annotations, since most existing datasets offer either
temporal spans for videos or spatial boxes on images, lacking unified
spatio-temporal supervision and reasoning traces. Then, we adopt a cold-start
reinforcement learning strategy with multiple specially designed rewards that
jointly encourage answer accuracy, temporal alignment, and spatial precision.
On V-STAR benchmark, Open-o3 Video achieves state-of-the-art performance,
raising mAM by 14.4% and mLGM by 24.2% on the Qwen2.5-VL baseline. Consistent
improvements are also observed on a broad range of video understanding
benchmarks, including VideoMME, WorldSense, VideoMMMU, and TVGBench. Beyond
accuracy, the reasoning traces produced by Open-o3 Video also provide valuable
signals for test-time scaling, enabling confidence-aware verification and
improving answer reliability.