Différenciation d'Action Vidéo
Video Action Differencing
March 10, 2025
Auteurs: James Burgess, Xiaohan Wang, Yuhui Zhang, Anita Rau, Alejandro Lozano, Lisa Dunlap, Trevor Darrell, Serena Yeung-Levy
cs.AI
Résumé
Comment deux individus diffèrent-ils lorsqu'ils effectuent la même action ? Dans ce travail, nous introduisons VidDiff (Video Action Differencing), une nouvelle tâche consistant à identifier les différences subtiles entre des vidéos de la même action, qui trouve de nombreuses applications, telles que le coaching et l'apprentissage de compétences. Pour permettre le développement sur cette nouvelle tâche, nous créons d'abord VidDiffBench, un ensemble de données de référence contenant 549 paires de vidéos, avec des annotations humaines de 4 469 différences d'action fines et 2 075 timestamps de localisation indiquant où ces différences se produisent. Nos expériences montrent que VidDiffBench représente un défi significatif pour les modèles multimodaux de pointe (LMMs), tels que GPT-4o et Qwen2-VL. En analysant les échecs des LMMs sur VidDiffBench, nous mettons en évidence deux défis clés pour cette tâche : la localisation des sous-actions pertinentes sur deux vidéos et la comparaison fine des images. Pour les surmonter, nous proposons la méthode VidDiff, un workflow agentique qui décompose la tâche en trois étapes : proposition de différences d'action, localisation des images clés et différenciation des images, chaque étape utilisant des modèles de base spécialisés. Pour encourager les recherches futures sur cette nouvelle tâche, nous publions le benchmark à l'adresse https://huggingface.co/datasets/jmhb/VidDiffBench et le code à l'adresse http://jmhb0.github.io/viddiff.
English
How do two individuals differ when performing the same action? In this work,
we introduce Video Action Differencing (VidDiff), the novel task of identifying
subtle differences between videos of the same action, which has many
applications, such as coaching and skill learning. To enable development on
this new task, we first create VidDiffBench, a benchmark dataset containing 549
video pairs, with human annotations of 4,469 fine-grained action differences
and 2,075 localization timestamps indicating where these differences occur. Our
experiments demonstrate that VidDiffBench poses a significant challenge for
state-of-the-art large multimodal models (LMMs), such as GPT-4o and Qwen2-VL.
By analyzing failure cases of LMMs on VidDiffBench, we highlight two key
challenges for this task: localizing relevant sub-actions over two videos and
fine-grained frame comparison. To overcome these, we propose the VidDiff
method, an agentic workflow that breaks the task into three stages: action
difference proposal, keyframe localization, and frame differencing, each stage
utilizing specialized foundation models. To encourage future research in this
new task, we release the benchmark at
https://huggingface.co/datasets/jmhb/VidDiffBench and code at
http://jmhb0.github.io/viddiff.Summary
AI-Generated Summary