Différenciation d'Action Vidéo

papers.abstract

Comment deux individus diffèrent-ils lorsqu'ils effectuent la même action ? Dans ce travail, nous introduisons VidDiff (Video Action Differencing), une nouvelle tâche consistant à identifier les différences subtiles entre des vidéos de la même action, qui trouve de nombreuses applications, telles que le coaching et l'apprentissage de compétences. Pour permettre le développement sur cette nouvelle tâche, nous créons d'abord VidDiffBench, un ensemble de données de référence contenant 549 paires de vidéos, avec des annotations humaines de 4 469 différences d'action fines et 2 075 timestamps de localisation indiquant où ces différences se produisent. Nos expériences montrent que VidDiffBench représente un défi significatif pour les modèles multimodaux de pointe (LMMs), tels que GPT-4o et Qwen2-VL. En analysant les échecs des LMMs sur VidDiffBench, nous mettons en évidence deux défis clés pour cette tâche : la localisation des sous-actions pertinentes sur deux vidéos et la comparaison fine des images. Pour les surmonter, nous proposons la méthode VidDiff, un workflow agentique qui décompose la tâche en trois étapes : proposition de différences d'action, localisation des images clés et différenciation des images, chaque étape utilisant des modèles de base spécialisés. Pour encourager les recherches futures sur cette nouvelle tâche, nous publions le benchmark à l'adresse https://huggingface.co/datasets/jmhb/VidDiffBench et le code à l'adresse http://jmhb0.github.io/viddiff.

English

How do two individuals differ when performing the same action? In this work, we introduce Video Action Differencing (VidDiff), the novel task of identifying subtle differences between videos of the same action, which has many applications, such as coaching and skill learning. To enable development on this new task, we first create VidDiffBench, a benchmark dataset containing 549 video pairs, with human annotations of 4,469 fine-grained action differences and 2,075 localization timestamps indicating where these differences occur. Our experiments demonstrate that VidDiffBench poses a significant challenge for state-of-the-art large multimodal models (LMMs), such as GPT-4o and Qwen2-VL. By analyzing failure cases of LMMs on VidDiffBench, we highlight two key challenges for this task: localizing relevant sub-actions over two videos and fine-grained frame comparison. To overcome these, we propose the VidDiff method, an agentic workflow that breaks the task into three stages: action difference proposal, keyframe localization, and frame differencing, each stage utilizing specialized foundation models. To encourage future research in this new task, we release the benchmark at https://huggingface.co/datasets/jmhb/VidDiffBench and code at http://jmhb0.github.io/viddiff.