ChatPaper.aiChatPaper

Разностное выделение действий в видео

Video Action Differencing

March 10, 2025
Авторы: James Burgess, Xiaohan Wang, Yuhui Zhang, Anita Rau, Alejandro Lozano, Lisa Dunlap, Trevor Darrell, Serena Yeung-Levy
cs.AI

Аннотация

Чем отличаются два человека при выполнении одного и того же действия? В данной работе мы представляем Video Action Differencing (VidDiff) — новую задачу выявления тонких различий между видео одного и того же действия, которая имеет множество применений, таких как коучинг и обучение навыкам. Для развития этой новой задачи мы сначала создаем VidDiffBench — эталонный набор данных, содержащий 549 пар видео с аннотациями 4 469 тонких различий в действиях и 2 075 временных меток, указывающих, где эти различия происходят. Наши эксперименты показывают, что VidDiffBench представляет значительную сложность для современных крупных мультимодальных моделей (LMM), таких как GPT-4o и Qwen2-VL. Анализируя случаи неудач LMM на VidDiffBench, мы выделяем две ключевые проблемы для этой задачи: локализация соответствующих под-действий в двух видео и тонкое сравнение кадров. Для их решения мы предлагаем метод VidDiff — агентный рабочий процесс, который разбивает задачу на три этапа: предложение различий в действиях, локализация ключевых кадров и сравнение кадров, где каждый этап использует специализированные базовые модели. Чтобы стимулировать дальнейшие исследования в этой новой области, мы публикуем эталонный набор данных по адресу https://huggingface.co/datasets/jmhb/VidDiffBench и код на http://jmhb0.github.io/viddiff.
English
How do two individuals differ when performing the same action? In this work, we introduce Video Action Differencing (VidDiff), the novel task of identifying subtle differences between videos of the same action, which has many applications, such as coaching and skill learning. To enable development on this new task, we first create VidDiffBench, a benchmark dataset containing 549 video pairs, with human annotations of 4,469 fine-grained action differences and 2,075 localization timestamps indicating where these differences occur. Our experiments demonstrate that VidDiffBench poses a significant challenge for state-of-the-art large multimodal models (LMMs), such as GPT-4o and Qwen2-VL. By analyzing failure cases of LMMs on VidDiffBench, we highlight two key challenges for this task: localizing relevant sub-actions over two videos and fine-grained frame comparison. To overcome these, we propose the VidDiff method, an agentic workflow that breaks the task into three stages: action difference proposal, keyframe localization, and frame differencing, each stage utilizing specialized foundation models. To encourage future research in this new task, we release the benchmark at https://huggingface.co/datasets/jmhb/VidDiffBench and code at http://jmhb0.github.io/viddiff.

Summary

AI-Generated Summary

PDF332March 12, 2025