ChatPaper.aiChatPaper

Préentraînement vidéo multi-échelle pour la prévision d'activités à long terme

Multiscale Video Pretraining for Long-Term Activity Forecasting

July 24, 2023
Auteurs: Reuben Tan, Matthias De Lange, Michael Iuzzolino, Bryan A. Plummer, Kate Saenko, Karl Ridgeway, Lorenzo Torresani
cs.AI

Résumé

La prévision d'activités à long terme constitue un problème de recherche particulièrement complexe, car elle nécessite de comprendre les relations temporelles entre les actions observées, ainsi que la variabilité et la complexité des activités humaines. Bien qu'elles s'appuient sur une supervision forte via des annotations humaines coûteuses, les approches de prévision de pointe généralisent souvent mal à des données non vues. Pour atténuer ce problème, nous proposons le **Multiscale Video Pretraining (MVP)**, une nouvelle approche d'apprentissage auto-supervisé qui apprend des représentations robustes pour la prévision en prédisant des représentations contextualisées de clips vidéo futurs sur plusieurs échelles temporelles. MVP repose sur notre observation que les actions dans les vidéos ont une nature multi-échelle, où les actions atomiques se produisent généralement à court terme, tandis que des actions plus complexes peuvent s'étendre sur des périodes plus longues. Nous comparons MVP aux approches d'apprentissage vidéo auto-supervisé de pointe sur des tâches de prévision à long terme, notamment l'anticipation d'actions à long terme et la prédiction de résumés vidéo. Nos expériences approfondies sur les ensembles de données Ego4D et Epic-Kitchens-55/100 montrent que MVP surpasse les méthodes de pointe avec des marges significatives. Notamment, MVP obtient un gain de performance relatif de plus de 20 % en précision pour la prévision de résumés vidéo par rapport aux méthodes existantes.
English
Long-term activity forecasting is an especially challenging research problem because it requires understanding the temporal relationships between observed actions, as well as the variability and complexity of human activities. Despite relying on strong supervision via expensive human annotations, state-of-the-art forecasting approaches often generalize poorly to unseen data. To alleviate this issue, we propose Multiscale Video Pretraining (MVP), a novel self-supervised pretraining approach that learns robust representations for forecasting by learning to predict contextualized representations of future video clips over multiple timescales. MVP is based on our observation that actions in videos have a multiscale nature, where atomic actions typically occur at a short timescale and more complex actions may span longer timescales. We compare MVP to state-of-the-art self-supervised video learning approaches on downstream long-term forecasting tasks including long-term action anticipation and video summary prediction. Our comprehensive experiments across the Ego4D and Epic-Kitchens-55/100 datasets demonstrate that MVP out-performs state-of-the-art methods by significant margins. Notably, MVP obtains a relative performance gain of over 20% accuracy in video summary forecasting over existing methods.
PDF60December 15, 2024