ChatPaper.aiChatPaper

ビデオアクション差分

Video Action Differencing

March 10, 2025
著者: James Burgess, Xiaohan Wang, Yuhui Zhang, Anita Rau, Alejandro Lozano, Lisa Dunlap, Trevor Darrell, Serena Yeung-Levy
cs.AI

要旨

同じ動作を行う二人の個人はどのように異なるのか?本研究では、同一動作のビデオ間の微妙な差異を識別する新たなタスクであるVideo Action Differencing(VidDiff)を提案する。このタスクは、コーチングやスキル学習など多くの応用が期待される。この新たなタスクの開発を可能にするため、まずVidDiffBenchというベンチマークデータセットを作成した。このデータセットには549組のビデオペアが含まれており、4,469の細粒度の動作差異と、これらの差異が発生する箇所を示す2,075のローカライゼーションタイムスタンプが人間によってアノテーションされている。我々の実験では、VidDiffBenchがGPT-4oやQwen2-VLなどの最先端の大規模マルチモーダルモデル(LMM)にとって重大な課題であることを示した。VidDiffBenchにおけるLMMの失敗事例を分析することで、このタスクにおける二つの主要な課題を明らかにした:二つのビデオにわたる関連サブアクションのローカライゼーションと、細粒度のフレーム比較。これらの課題を克服するため、VidDiffメソッドを提案する。これは、タスクを三つの段階に分割するエージェンシックなワークフローである:動作差異提案、キーフレームローカライゼーション、フレーム差分。各段階では専門の基盤モデルを活用する。この新たなタスクにおける将来の研究を促進するため、ベンチマークをhttps://huggingface.co/datasets/jmhb/VidDiffBenchで、コードをhttp://jmhb0.github.io/viddiffで公開している。
English
How do two individuals differ when performing the same action? In this work, we introduce Video Action Differencing (VidDiff), the novel task of identifying subtle differences between videos of the same action, which has many applications, such as coaching and skill learning. To enable development on this new task, we first create VidDiffBench, a benchmark dataset containing 549 video pairs, with human annotations of 4,469 fine-grained action differences and 2,075 localization timestamps indicating where these differences occur. Our experiments demonstrate that VidDiffBench poses a significant challenge for state-of-the-art large multimodal models (LMMs), such as GPT-4o and Qwen2-VL. By analyzing failure cases of LMMs on VidDiffBench, we highlight two key challenges for this task: localizing relevant sub-actions over two videos and fine-grained frame comparison. To overcome these, we propose the VidDiff method, an agentic workflow that breaks the task into three stages: action difference proposal, keyframe localization, and frame differencing, each stage utilizing specialized foundation models. To encourage future research in this new task, we release the benchmark at https://huggingface.co/datasets/jmhb/VidDiffBench and code at http://jmhb0.github.io/viddiff.

Summary

AI-Generated Summary

PDF332March 12, 2025