Preentrenamiento Multiescala de Video para la Predicción de Actividades a Largo Plazo
Multiscale Video Pretraining for Long-Term Activity Forecasting
July 24, 2023
Autores: Reuben Tan, Matthias De Lange, Michael Iuzzolino, Bryan A. Plummer, Kate Saenko, Karl Ridgeway, Lorenzo Torresani
cs.AI
Resumen
La predicción de actividades a largo plazo es un problema de investigación especialmente desafiante porque requiere comprender las relaciones temporales entre las acciones observadas, así como la variabilidad y complejidad de las actividades humanas. A pesar de depender de una supervisión fuerte mediante anotaciones humanas costosas, los enfoques de predicción de última generación a menudo generalizan pobremente a datos no vistos. Para mitigar este problema, proponemos Multiscale Video Pretraining (MVP), un novedoso enfoque de preentrenamiento autosupervisado que aprende representaciones robustas para la predicción al aprender a predecir representaciones contextualizadas de clips de video futuros en múltiples escalas temporales. MVP se basa en nuestra observación de que las acciones en los videos tienen una naturaleza multiescala, donde las acciones atómicas típicamente ocurren en una escala de tiempo corta y acciones más complejas pueden abarcar escalas de tiempo más largas. Comparamos MVP con enfoques de aprendizaje de video autosupervisado de última generación en tareas de predicción a largo plazo, incluyendo la anticipación de acciones a largo plazo y la predicción de resúmenes de video. Nuestros experimentos exhaustivos en los conjuntos de datos Ego4D y Epic-Kitchens-55/100 demuestran que MVP supera a los métodos de última generación por márgenes significativos. Notablemente, MVP obtiene una mejora relativa de más del 20% en precisión en la predicción de resúmenes de video sobre los métodos existentes.
English
Long-term activity forecasting is an especially challenging research problem
because it requires understanding the temporal relationships between observed
actions, as well as the variability and complexity of human activities. Despite
relying on strong supervision via expensive human annotations, state-of-the-art
forecasting approaches often generalize poorly to unseen data. To alleviate
this issue, we propose Multiscale Video Pretraining (MVP), a novel
self-supervised pretraining approach that learns robust representations for
forecasting by learning to predict contextualized representations of future
video clips over multiple timescales. MVP is based on our observation that
actions in videos have a multiscale nature, where atomic actions typically
occur at a short timescale and more complex actions may span longer timescales.
We compare MVP to state-of-the-art self-supervised video learning approaches on
downstream long-term forecasting tasks including long-term action anticipation
and video summary prediction. Our comprehensive experiments across the Ego4D
and Epic-Kitchens-55/100 datasets demonstrate that MVP out-performs
state-of-the-art methods by significant margins. Notably, MVP obtains a
relative performance gain of over 20% accuracy in video summary forecasting
over existing methods.