ChatPaper.aiChatPaper

Open-o3 Video: Обоснование видеоданных с явными пространственно-временными доказательствами

Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence

October 23, 2025
Авторы: Jiahao Meng, Xiangtai Li, Haochen Wang, Yue Tan, Tao Zhang, Lingdong Kong, Yunhai Tong, Anran Wang, Zhiyang Teng, Yujing Wang, Zhuochen Wang
cs.AI

Аннотация

Большинство моделей для анализа видео генерируют лишь текстовые траектории рассуждений, не указывая, когда и где появляются ключевые свидетельства. Недавние модели, такие как OpenAI-o3, вызвали широкий интерес к доказательно-ориентированному анализу изображений, однако распространение этой возможности на видео является более сложной задачей, поскольку требует совместного временного отслеживания и пространственной локализации в динамических сценах. Мы представляем Open-o3 Video — не-агентный фреймворк, который интегрирует явные пространственно-временные свидетельства в анализ видео, а также тщательно собираем обучающие данные и разрабатываем стратегии обучения для решения упомянутых выше проблем. Модель выделяет ключевые временные метки, объекты и ограничивающие рамки вместе со своими ответами, что позволяет обосновывать рассуждения конкретными визуальными наблюдениями. Для реализации этой функциональности мы сначала курируем и создаем два высококачественных набора данных: STGR-CoT-30k для SFT и STGR-RL-36k для RL, с тщательно разработанными временными и пространственными аннотациями, поскольку большинство существующих наборов данных предлагают либо временные интервалы для видео, либо пространственные рамки для изображений, не имея единого пространственно-временного контроля и траекторий рассуждений. Затем мы применяем стратегию обучения с подкреплением с "холодным стартом" и множеством специально разработанных вознаграждений, которые совместно стимулируют точность ответов, временное согласование и пространственную точность. На benchmark V-STAR модель Open-o3 Video демонстрирует наилучшую производительность, повышая mAM на 14.4% и mLGM на 24.2% по сравнению с базовой моделью Qwen2.5-VL. Последовательные улучшения также наблюдаются на широком спектре benchmarks для понимания видео, включая VideoMME, WorldSense, VideoMMMU и TVGBench. Помимо точности, траектории рассуждений, генерируемые Open-o3 Video, также предоставляют ценную информацию для масштабирования на этапе тестирования, обеспечивая проверку с учетом достоверности и повышая надежность ответов.
English
Most video reasoning models only generate textual reasoning traces without indicating when and where key evidence appears. Recent models such as OpenAI-o3 have sparked wide interest in evidence-centered reasoning for images, yet extending this ability to videos is more challenging, as it requires joint temporal tracking and spatial localization across dynamic scenes. We introduce Open-o3 Video, a non-agent framework that integrates explicit spatio-temporal evidence into video reasoning, and carefully collect training data and design training strategies to address the aforementioned challenges. The model highlights key timestamps, objects, and bounding boxes alongside its answers, allowing reasoning to be grounded in concrete visual observations. To enable this functionality, we first curate and build two high-quality datasets, STGR-CoT-30k for SFT and STGR-RL-36k for RL, with carefully constructed temporal and spatial annotations, since most existing datasets offer either temporal spans for videos or spatial boxes on images, lacking unified spatio-temporal supervision and reasoning traces. Then, we adopt a cold-start reinforcement learning strategy with multiple specially designed rewards that jointly encourage answer accuracy, temporal alignment, and spatial precision. On V-STAR benchmark, Open-o3 Video achieves state-of-the-art performance, raising mAM by 14.4% and mLGM by 24.2% on the Qwen2.5-VL baseline. Consistent improvements are also observed on a broad range of video understanding benchmarks, including VideoMME, WorldSense, VideoMMMU, and TVGBench. Beyond accuracy, the reasoning traces produced by Open-o3 Video also provide valuable signals for test-time scaling, enabling confidence-aware verification and improving answer reliability.
PDF553December 2, 2025