ChatPaper.aiChatPaper

OVO-Bench: Насколько далеко ваши Video-LLM от понимания онлайн-видео в реальном мире?

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

January 9, 2025
Авторы: Yifei Li, Junbo Niu, Ziyang Miao, Chunjiang Ge, Yuanhang Zhou, Qihao He, Xiaoyi Dong, Haodong Duan, Shuangrui Ding, Rui Qian, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang
cs.AI

Аннотация

Временное осознание, способность рассуждать динамически на основе метки времени, когда задается вопрос, является ключевым различием между офлайн и онлайн видео LLMs. В отличие от офлайн моделей, которые полагаются на полные видео для статического, послефактного анализа, онлайн модели обрабатывают видеопотоки поэтапно и динамически адаптируют свои ответы на основе метки времени, на которой задается вопрос. Несмотря на его значимость, временное осознание не было должным образом оценено в существующих бенчмарках. Для заполнения этого пробела мы представляем OVO-Bench (Online-VideO-Benchmark), новый видео-бенчмарк, который подчеркивает важность меток времени для оценки возможностей продвинутого онлайн понимания видео. OVO-Bench оценивает способность видео LLMs рассуждать и реагировать на события, происходящие в определенные моменты времени, в трех различных сценариях: (1) Обратное отслеживание: вернуться к прошлым событиям, чтобы ответить на вопрос. (2) Понимание в реальном времени: понимать и реагировать на события по мере их развития в текущий момент времени. (3) Активное предварительное реагирование: отложить ответ до тех пор, пока не станет доступно достаточно будущей информации для точного ответа на вопрос. OVO-Bench включает 12 задач, включающих 644 уникальных видео и приблизительно 2800 тщательно отобранных мета-аннотаций с точными метками времени. Мы комбинируем автоматизированные процессы генерации с человеческой кураторской работой. С использованием этих образцов высокого качества, мы дополнительно разработали процесс оценки для систематического запроса видео LLMs вдоль временной шкалы видео. Оценки девяти видео-LLMs показывают, что, несмотря на прогресс на традиционных бенчмарках, текущие модели испытывают трудности с онлайн пониманием видео, демонстрируя значительный разрыв по сравнению с человеческими агентами. Мы надеемся, что OVO-Bench стимулирует прогресс в видео LLMs и вдохновит на будущие исследования в области онлайн рассуждений о видео. Наш бенчмарк и код доступны по ссылке https://github.com/JoeLeelyf/OVO-Bench.
English
Temporal Awareness, the ability to reason dynamically based on the timestamp when a question is raised, is the key distinction between offline and online video LLMs. Unlike offline models, which rely on complete videos for static, post hoc analysis, online models process video streams incrementally and dynamically adapt their responses based on the timestamp at which the question is posed. Despite its significance, temporal awareness has not been adequately evaluated in existing benchmarks. To fill this gap, we present OVO-Bench (Online-VideO-Benchmark), a novel video benchmark that emphasizes the importance of timestamps for advanced online video understanding capability benchmarking. OVO-Bench evaluates the ability of video LLMs to reason and respond to events occurring at specific timestamps under three distinct scenarios: (1) Backward tracing: trace back to past events to answer the question. (2) Real-time understanding: understand and respond to events as they unfold at the current timestamp. (3) Forward active responding: delay the response until sufficient future information becomes available to answer the question accurately. OVO-Bench comprises 12 tasks, featuring 644 unique videos and approximately human-curated 2,800 fine-grained meta-annotations with precise timestamps. We combine automated generation pipelines with human curation. With these high-quality samples, we further developed an evaluation pipeline to systematically query video LLMs along the video timeline. Evaluations of nine Video-LLMs reveal that, despite advancements on traditional benchmarks, current models struggle with online video understanding, showing a significant gap compared to human agents. We hope OVO-Bench will drive progress in video LLMs and inspire future research in online video reasoning. Our benchmark and code can be accessed at https://github.com/JoeLeelyf/OVO-Bench.

Summary

AI-Generated Summary

PDF442January 13, 2025