Diferencia de Acción en Video
Video Action Differencing
March 10, 2025
Autores: James Burgess, Xiaohan Wang, Yuhui Zhang, Anita Rau, Alejandro Lozano, Lisa Dunlap, Trevor Darrell, Serena Yeung-Levy
cs.AI
Resumen
¿Cómo difieren dos individuos al realizar la misma acción? En este trabajo, presentamos Video Action Differencing (VidDiff), la novedosa tarea de identificar diferencias sutiles entre videos de la misma acción, la cual tiene múltiples aplicaciones, como el coaching y el aprendizaje de habilidades. Para facilitar el desarrollo en esta nueva tarea, primero creamos VidDiffBench, un conjunto de datos de referencia que contiene 549 pares de videos, con anotaciones humanas de 4,469 diferencias de acción detalladas y 2,075 marcas de tiempo que indican dónde ocurren estas diferencias. Nuestros experimentos demuestran que VidDiffBench representa un desafío significativo para los modelos multimodales grandes (LMMs) de última generación, como GPT-4o y Qwen2-VL. Al analizar los casos de fallo de los LMMs en VidDiffBench, destacamos dos desafíos clave para esta tarea: localizar subacciones relevantes en dos videos y realizar comparaciones detalladas entre fotogramas. Para superar estos desafíos, proponemos el método VidDiff, un flujo de trabajo agéntico que divide la tarea en tres etapas: propuesta de diferencias de acción, localización de fotogramas clave y diferenciación de fotogramas, donde cada etapa utiliza modelos base especializados. Para fomentar la investigación futura en esta nueva tarea, publicamos el conjunto de datos en https://huggingface.co/datasets/jmhb/VidDiffBench y el código en http://jmhb0.github.io/viddiff.
English
How do two individuals differ when performing the same action? In this work,
we introduce Video Action Differencing (VidDiff), the novel task of identifying
subtle differences between videos of the same action, which has many
applications, such as coaching and skill learning. To enable development on
this new task, we first create VidDiffBench, a benchmark dataset containing 549
video pairs, with human annotations of 4,469 fine-grained action differences
and 2,075 localization timestamps indicating where these differences occur. Our
experiments demonstrate that VidDiffBench poses a significant challenge for
state-of-the-art large multimodal models (LMMs), such as GPT-4o and Qwen2-VL.
By analyzing failure cases of LMMs on VidDiffBench, we highlight two key
challenges for this task: localizing relevant sub-actions over two videos and
fine-grained frame comparison. To overcome these, we propose the VidDiff
method, an agentic workflow that breaks the task into three stages: action
difference proposal, keyframe localization, and frame differencing, each stage
utilizing specialized foundation models. To encourage future research in this
new task, we release the benchmark at
https://huggingface.co/datasets/jmhb/VidDiffBench and code at
http://jmhb0.github.io/viddiff.Summary
AI-Generated Summary