ChatPaper.aiChatPaper

비디오 동작 차이 분석

Video Action Differencing

March 10, 2025
저자: James Burgess, Xiaohan Wang, Yuhui Zhang, Anita Rau, Alejandro Lozano, Lisa Dunlap, Trevor Darrell, Serena Yeung-Levy
cs.AI

초록

동일한 동작을 수행할 때 두 개인이 어떻게 다른지 궁금한 적이 있나요? 본 연구에서는 동일한 동작을 담은 비디오 간의 미묘한 차이를 식별하는 새로운 과제인 Video Action Differencing(VidDiff)를 소개합니다. 이 과제는 코칭 및 기술 학습과 같은 다양한 응용 분야에서 유용합니다. 이 새로운 과제의 개발을 위해, 우리는 먼저 VidDiffBench라는 벤치마크 데이터셋을 구축했습니다. 이 데이터셋은 549개의 비디오 쌍과 4,469개의 세밀한 동작 차이에 대한 인간 주석, 그리고 이러한 차이가 발생하는 위치를 나타내는 2,075개의 시간 스탬프를 포함하고 있습니다. 우리의 실험은 VidDiffBench가 GPT-4o 및 Qwen2-VL과 같은 최첨단 대규모 멀티모달 모델(LMM)에게도 상당한 도전 과제임을 보여줍니다. LMM의 실패 사례를 분석함으로써, 우리는 이 과제의 두 가지 주요 도전 과제를 강조합니다: 두 비디오 간의 관련 하위 동작을 지역화하는 것과 세밀한 프레임 비교를 수행하는 것입니다. 이를 극복하기 위해, 우리는 VidDiff 방법을 제안합니다. 이는 작업을 세 단계로 나누는 에이전트 기반 워크플로우입니다: 동작 차이 제안, 키프레임 지역화, 프레임 차이 비교. 각 단계는 특화된 파운데이션 모델을 활용합니다. 이 새로운 과제에 대한 미래 연구를 촉진하기 위해, 우리는 벤치마크를 https://huggingface.co/datasets/jmhb/VidDiffBench에서, 코드는 http://jmhb0.github.io/viddiff에서 공개합니다.
English
How do two individuals differ when performing the same action? In this work, we introduce Video Action Differencing (VidDiff), the novel task of identifying subtle differences between videos of the same action, which has many applications, such as coaching and skill learning. To enable development on this new task, we first create VidDiffBench, a benchmark dataset containing 549 video pairs, with human annotations of 4,469 fine-grained action differences and 2,075 localization timestamps indicating where these differences occur. Our experiments demonstrate that VidDiffBench poses a significant challenge for state-of-the-art large multimodal models (LMMs), such as GPT-4o and Qwen2-VL. By analyzing failure cases of LMMs on VidDiffBench, we highlight two key challenges for this task: localizing relevant sub-actions over two videos and fine-grained frame comparison. To overcome these, we propose the VidDiff method, an agentic workflow that breaks the task into three stages: action difference proposal, keyframe localization, and frame differencing, each stage utilizing specialized foundation models. To encourage future research in this new task, we release the benchmark at https://huggingface.co/datasets/jmhb/VidDiffBench and code at http://jmhb0.github.io/viddiff.

Summary

AI-Generated Summary

PDF332March 12, 2025