OVO-Bench: Насколько далеко ваши Video-LLM от понимания онлайн-видео в реальном мире?
OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?
January 9, 2025
Авторы: Yifei Li, Junbo Niu, Ziyang Miao, Chunjiang Ge, Yuanhang Zhou, Qihao He, Xiaoyi Dong, Haodong Duan, Shuangrui Ding, Rui Qian, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang
cs.AI
Аннотация
Временное осознание, способность рассуждать динамически на основе метки времени, когда задается вопрос, является ключевым различием между офлайн и онлайн видео LLMs. В отличие от офлайн моделей, которые полагаются на полные видео для статического, послефактного анализа, онлайн модели обрабатывают видеопотоки поэтапно и динамически адаптируют свои ответы на основе метки времени, на которой задается вопрос. Несмотря на его значимость, временное осознание не было должным образом оценено в существующих бенчмарках. Для заполнения этого пробела мы представляем OVO-Bench (Online-VideO-Benchmark), новый видео-бенчмарк, который подчеркивает важность меток времени для оценки возможностей продвинутого онлайн понимания видео. OVO-Bench оценивает способность видео LLMs рассуждать и реагировать на события, происходящие в определенные моменты времени, в трех различных сценариях: (1) Обратное отслеживание: вернуться к прошлым событиям, чтобы ответить на вопрос. (2) Понимание в реальном времени: понимать и реагировать на события по мере их развития в текущий момент времени. (3) Активное предварительное реагирование: отложить ответ до тех пор, пока не станет доступно достаточно будущей информации для точного ответа на вопрос. OVO-Bench включает 12 задач, включающих 644 уникальных видео и приблизительно 2800 тщательно отобранных мета-аннотаций с точными метками времени. Мы комбинируем автоматизированные процессы генерации с человеческой кураторской работой. С использованием этих образцов высокого качества, мы дополнительно разработали процесс оценки для систематического запроса видео LLMs вдоль временной шкалы видео. Оценки девяти видео-LLMs показывают, что, несмотря на прогресс на традиционных бенчмарках, текущие модели испытывают трудности с онлайн пониманием видео, демонстрируя значительный разрыв по сравнению с человеческими агентами. Мы надеемся, что OVO-Bench стимулирует прогресс в видео LLMs и вдохновит на будущие исследования в области онлайн рассуждений о видео. Наш бенчмарк и код доступны по ссылке https://github.com/JoeLeelyf/OVO-Bench.
English
Temporal Awareness, the ability to reason dynamically based on the timestamp
when a question is raised, is the key distinction between offline and online
video LLMs. Unlike offline models, which rely on complete videos for static,
post hoc analysis, online models process video streams incrementally and
dynamically adapt their responses based on the timestamp at which the question
is posed. Despite its significance, temporal awareness has not been adequately
evaluated in existing benchmarks. To fill this gap, we present OVO-Bench
(Online-VideO-Benchmark), a novel video benchmark that emphasizes the
importance of timestamps for advanced online video understanding capability
benchmarking. OVO-Bench evaluates the ability of video LLMs to reason and
respond to events occurring at specific timestamps under three distinct
scenarios: (1) Backward tracing: trace back to past events to answer the
question. (2) Real-time understanding: understand and respond to events as they
unfold at the current timestamp. (3) Forward active responding: delay the
response until sufficient future information becomes available to answer the
question accurately. OVO-Bench comprises 12 tasks, featuring 644 unique videos
and approximately human-curated 2,800 fine-grained meta-annotations with
precise timestamps. We combine automated generation pipelines with human
curation. With these high-quality samples, we further developed an evaluation
pipeline to systematically query video LLMs along the video timeline.
Evaluations of nine Video-LLMs reveal that, despite advancements on traditional
benchmarks, current models struggle with online video understanding, showing a
significant gap compared to human agents. We hope OVO-Bench will drive progress
in video LLMs and inspire future research in online video reasoning. Our
benchmark and code can be accessed at https://github.com/JoeLeelyf/OVO-Bench.Summary
AI-Generated Summary