ChatPaper.aiChatPaper

Video Actieverschillen

Video Action Differencing

March 10, 2025
Auteurs: James Burgess, Xiaohan Wang, Yuhui Zhang, Anita Rau, Alejandro Lozano, Lisa Dunlap, Trevor Darrell, Serena Yeung-Levy
cs.AI

Samenvatting

Hoe verschillen twee individuen wanneer ze dezelfde handeling uitvoeren? In dit werk introduceren we Video Action Differencing (VidDiff), de nieuwe taak om subtiele verschillen tussen video's van dezelfde handeling te identificeren, wat veel toepassingen heeft, zoals coaching en vaardigheidsleren. Om ontwikkeling op deze nieuwe taak mogelijk te maken, creëren we eerst VidDiffBench, een benchmarkdataset met 549 videoparen, voorzien van menselijke annotaties van 4.469 fijnmazige actieverschillen en 2.075 lokalisatietimestamps die aangeven waar deze verschillen optreden. Onze experimenten tonen aan dat VidDiffBench een aanzienlijke uitdaging vormt voor state-of-the-art grote multimodale modellen (LMMs), zoals GPT-4o en Qwen2-VL. Door falende gevallen van LMMs op VidDiffBench te analyseren, belichten we twee belangrijke uitdagingen voor deze taak: het lokaliseren van relevante subacties over twee video's en fijnmazige frame-vergelijking. Om deze te overwinnen, stellen we de VidDiff-methode voor, een agent-gebaseerde workflow die de taak opdeelt in drie fasen: actieverschilvoorstel, sleutelframe-lokalisatie en frameverschillen, waarbij elke fase gespecialiseerde foundationmodellen gebruikt. Om toekomstig onderzoek in deze nieuwe taak aan te moedigen, maken we de benchmark beschikbaar op https://huggingface.co/datasets/jmhb/VidDiffBench en de code op http://jmhb0.github.io/viddiff.
English
How do two individuals differ when performing the same action? In this work, we introduce Video Action Differencing (VidDiff), the novel task of identifying subtle differences between videos of the same action, which has many applications, such as coaching and skill learning. To enable development on this new task, we first create VidDiffBench, a benchmark dataset containing 549 video pairs, with human annotations of 4,469 fine-grained action differences and 2,075 localization timestamps indicating where these differences occur. Our experiments demonstrate that VidDiffBench poses a significant challenge for state-of-the-art large multimodal models (LMMs), such as GPT-4o and Qwen2-VL. By analyzing failure cases of LMMs on VidDiffBench, we highlight two key challenges for this task: localizing relevant sub-actions over two videos and fine-grained frame comparison. To overcome these, we propose the VidDiff method, an agentic workflow that breaks the task into three stages: action difference proposal, keyframe localization, and frame differencing, each stage utilizing specialized foundation models. To encourage future research in this new task, we release the benchmark at https://huggingface.co/datasets/jmhb/VidDiffBench and code at http://jmhb0.github.io/viddiff.

Summary

AI-Generated Summary

PDF332March 12, 2025