ChatPaper.aiChatPaper

ViSpeak: Визуальная обратная связь с инструкциями в потоковых видео

ViSpeak: Visual Instruction Feedback in Streaming Videos

March 17, 2025
Авторы: Shenghao Fu, Qize Yang, Yuan-Ming Li, Yi-Xing Peng, Kun-Yu Lin, Xihan Wei, Jian-Fang Hu, Xiaohua Xie, Wei-Shi Zheng
cs.AI

Аннотация

Последние достижения в области крупных мультимодальных моделей (LMM) в основном сосредоточены на оффлайн-анализе видео. В то же время, анализ потокового видео представляет значительные трудности для современных моделей из-за его временной чувствительности, омни-модальности и интерактивных характеристик. В данной работе мы стремимся расширить понимание потокового видео с новой перспективы и предлагаем новую задачу под названием "Визуальная обратная связь по инструкциям", в рамках которой модели должны быть способны воспринимать визуальное содержимое и извлекать из него инструкции. Например, когда пользователи машут руками агентам, агенты должны распознать жест и начать диалог с приветственной информацией. Таким образом, следование инструкциям в визуальной модальности значительно улучшает взаимодействие между пользователем и агентом. Для содействия исследованиям мы определяем семь ключевых подзадач, тесно связанных с визуальной модальностью, и собираем набор данных ViSpeak-Instruct для обучения и ViSpeak-Bench для оценки. Кроме того, мы предлагаем модель ViSpeak, которая представляет собой передовую LMM для анализа потокового видео, демонстрирующую производительность на уровне GPT-4o в различных тестах на понимание потокового видео. После тонкой настройки на нашем наборе данных ViSpeak-Instruct, модель ViSpeak оснащается базовой способностью к визуальной обратной связи по инструкциям, что служит надежной основой для будущих исследований.
English
Recent advances in Large Multi-modal Models (LMMs) are primarily focused on offline video understanding. Instead, streaming video understanding poses great challenges to recent models due to its time-sensitive, omni-modal and interactive characteristics. In this work, we aim to extend the streaming video understanding from a new perspective and propose a novel task named Visual Instruction Feedback in which models should be aware of visual contents and learn to extract instructions from them. For example, when users wave their hands to agents, agents should recognize the gesture and start conversations with welcome information. Thus, following instructions in visual modality greatly enhances user-agent interactions. To facilitate research, we define seven key subtasks highly relevant to visual modality and collect the ViSpeak-Instruct dataset for training and the ViSpeak-Bench for evaluation. Further, we propose the ViSpeak model, which is a SOTA streaming video understanding LMM with GPT-4o-level performance on various streaming video understanding benchmarks. After finetuning on our ViSpeak-Instruct dataset, ViSpeak is equipped with basic visual instruction feedback ability, serving as a solid baseline for future research.

Summary

AI-Generated Summary

PDF82March 20, 2025