Diferença de Ação em Vídeo
Video Action Differencing
March 10, 2025
Autores: James Burgess, Xiaohan Wang, Yuhui Zhang, Anita Rau, Alejandro Lozano, Lisa Dunlap, Trevor Darrell, Serena Yeung-Levy
cs.AI
Resumo
Como dois indivíduos diferem ao realizar a mesma ação? Neste trabalho,
introduzimos o Video Action Differencing (VidDiff), a nova tarefa de identificar
diferenças sutis entre vídeos da mesma ação, que tem muitas
aplicações, como coaching e aprendizado de habilidades. Para permitir o desenvolvimento
desta nova tarefa, primeiro criamos o VidDiffBench, um conjunto de dados de referência contendo 549
pares de vídeos, com anotações humanas de 4.469 diferenças de ação em nível granular
e 2.075 timestamps de localização indicando onde essas diferenças ocorrem. Nossos
experimentos demonstram que o VidDiffBench representa um desafio significativo para
modelos multimodais de última geração (LMMs), como GPT-4o e Qwen2-VL.
Ao analisar os casos de falha dos LMMs no VidDiffBench, destacamos dois desafios
principais para esta tarefa: localizar sub-ações relevantes em dois vídeos e
comparação granular de frames. Para superar esses desafios, propomos o método VidDiff,
um fluxo de trabalho agentivo que divide a tarefa em três etapas: proposta de diferença
de ação, localização de keyframes e diferenciação de frames, cada etapa utilizando
modelos de base especializados. Para incentivar pesquisas futuras nesta nova tarefa,
disponibilizamos o benchmark em
https://huggingface.co/datasets/jmhb/VidDiffBench e o código em
http://jmhb0.github.io/viddiff.
English
How do two individuals differ when performing the same action? In this work,
we introduce Video Action Differencing (VidDiff), the novel task of identifying
subtle differences between videos of the same action, which has many
applications, such as coaching and skill learning. To enable development on
this new task, we first create VidDiffBench, a benchmark dataset containing 549
video pairs, with human annotations of 4,469 fine-grained action differences
and 2,075 localization timestamps indicating where these differences occur. Our
experiments demonstrate that VidDiffBench poses a significant challenge for
state-of-the-art large multimodal models (LMMs), such as GPT-4o and Qwen2-VL.
By analyzing failure cases of LMMs on VidDiffBench, we highlight two key
challenges for this task: localizing relevant sub-actions over two videos and
fine-grained frame comparison. To overcome these, we propose the VidDiff
method, an agentic workflow that breaks the task into three stages: action
difference proposal, keyframe localization, and frame differencing, each stage
utilizing specialized foundation models. To encourage future research in this
new task, we release the benchmark at
https://huggingface.co/datasets/jmhb/VidDiffBench and code at
http://jmhb0.github.io/viddiff.Summary
AI-Generated Summary