ChatPaper.aiChatPaper

RIVER: 비디오 LLM을 위한 실시간 상호작용 벤치마크

RIVER: A Real-Time Interaction Benchmark for Video LLMs

March 4, 2026
저자: Yansong Shi, Qingsong Zhao, Tianxiang Jiang, Xiangyu Zeng, Yi Wang, Limin Wang
cs.AI

초록

다중 모달 대규모 언어 모델의 급속한 발전은 인상적인 능력을 보여주고 있지만, 거의 모든 모델이 오프라인 패러다임으로 운영되어 실시간 상호작용성을 저해하고 있습니다. 이러한 격차를 해소하기 위해 우리는 온라인 비디오 이해 평가를 위해 설계된 실시간 비디오 상호작용 벤치마크(RIVER Bench)를 소개합니다. RIVER Bench는 회고적 기억, 실시간 인지, 선제적 예측 과업으로 구성된 새로운 프레임워크를 도입하여 전체 비디오에 한 번에 응답하는 대신 상호작용적 대화를 밀접하게 모방합니다. 우리는 다양한 출처와 길이의 비디오를 사용하여 상세한 주석을 수행하고 실시간 상호작용 형식을 정확히 정의했습니다. 다양한 모델 범주에 대한 평가 결과, 오프라인 모델은 단일 질의응답 과업에서는 우수한 성능을 보이지만 실시간 처리에는 어려움을 겪는 것으로 나타났습니다. 기존 모델들의 온라인 비디오 상호작용 한계, 특히 장기 기억과 미래 인식 능력의 부족함을 해결하기 위해 우리는 모델이 실시간으로 사용자와 더 유연하게 상호작용할 수 있는 일반적인 개선 방법을 제안했습니다. 이 연구가 실시간 상호작용 비디오 이해 모델의 발전을 크게 촉진하고 이 신흥 분야의 미래 연구에 영감을 줄 것이라고 믿습니다. 데이터셋과 코드는 https://github.com/OpenGVLab/RIVER에서 공개되어 있습니다.
English
The rapid advancement of multimodal large language models has demonstrated impressive capabilities, yet nearly all operate in an offline paradigm, hindering real-time interactivity. Addressing this gap, we introduce the Real-tIme Video intERaction Bench (RIVER Bench), designed for evaluating online video comprehension. RIVER Bench introduces a novel framework comprising Retrospective Memory, Live-Perception, and Proactive Anticipation tasks, closely mimicking interactive dialogues rather than responding to entire videos at once. We conducted detailed annotations using videos from diverse sources and varying lengths, and precisely defined the real-time interactive format. Evaluations across various model categories reveal that while offline models perform well in single question-answering tasks, they struggle with real-time processing. Addressing the limitations of existing models in online video interaction, especially their deficiencies in long-term memory and future perception, we proposed a general improvement method that enables models to interact with users more flexibly in real time. We believe this work will significantly advance the development of real-time interactive video understanding models and inspire future research in this emerging field. Datasets and code are publicly available at https://github.com/OpenGVLab/RIVER.
PDF42March 6, 2026