ChatPaper.aiChatPaper

Differenziazione delle Azioni nei Video

Video Action Differencing

March 10, 2025
Autori: James Burgess, Xiaohan Wang, Yuhui Zhang, Anita Rau, Alejandro Lozano, Lisa Dunlap, Trevor Darrell, Serena Yeung-Levy
cs.AI

Abstract

In che modo due individui differiscono nell'eseguire la stessa azione? In questo lavoro, introduciamo Video Action Differencing (VidDiff), il nuovo compito di identificare sottili differenze tra video della stessa azione, che ha molte applicazioni, come il coaching e l'apprendimento di abilità. Per favorire lo sviluppo su questo nuovo compito, creiamo prima VidDiffBench, un dataset di riferimento contenente 549 coppie di video, con annotazioni umane di 4.469 differenze d'azione di livello fine e 2.075 timestamp di localizzazione che indicano dove si verificano queste differenze. I nostri esperimenti dimostrano che VidDiffBench rappresenta una sfida significativa per i modelli multimodali di ultima generazione (LMM), come GPT-4o e Qwen2-VL. Analizzando i casi di fallimento degli LMM su VidDiffBench, evidenziamo due sfide chiave per questo compito: localizzare le sotto-azioni rilevanti in due video e il confronto fine a livello di frame. Per superare queste sfide, proponiamo il metodo VidDiff, un flusso di lavoro agentico che suddivide il compito in tre fasi: proposta di differenze d'azione, localizzazione dei fotogrammi chiave e differenziazione dei frame, con ciascuna fase che utilizza modelli di fondazione specializzati. Per incoraggiare la ricerca futura su questo nuovo compito, rilasciamo il benchmark all'indirizzo https://huggingface.co/datasets/jmhb/VidDiffBench e il codice all'indirizzo http://jmhb0.github.io/viddiff.
English
How do two individuals differ when performing the same action? In this work, we introduce Video Action Differencing (VidDiff), the novel task of identifying subtle differences between videos of the same action, which has many applications, such as coaching and skill learning. To enable development on this new task, we first create VidDiffBench, a benchmark dataset containing 549 video pairs, with human annotations of 4,469 fine-grained action differences and 2,075 localization timestamps indicating where these differences occur. Our experiments demonstrate that VidDiffBench poses a significant challenge for state-of-the-art large multimodal models (LMMs), such as GPT-4o and Qwen2-VL. By analyzing failure cases of LMMs on VidDiffBench, we highlight two key challenges for this task: localizing relevant sub-actions over two videos and fine-grained frame comparison. To overcome these, we propose the VidDiff method, an agentic workflow that breaks the task into three stages: action difference proposal, keyframe localization, and frame differencing, each stage utilizing specialized foundation models. To encourage future research in this new task, we release the benchmark at https://huggingface.co/datasets/jmhb/VidDiffBench and code at http://jmhb0.github.io/viddiff.
PDF342March 12, 2025