장기적 활동 예측을 위한 멀티스케일 비디오 사전 학습
Multiscale Video Pretraining for Long-Term Activity Forecasting
July 24, 2023
저자: Reuben Tan, Matthias De Lange, Michael Iuzzolino, Bryan A. Plummer, Kate Saenko, Karl Ridgeway, Lorenzo Torresani
cs.AI
초록
장기 활동 예측은 관찰된 행동 간의 시간적 관계와 인간 활동의 다양성 및 복잡성을 이해해야 하기 때문에 특히 어려운 연구 문제입니다. 비용이 많이 드는 인간 주석을 통한 강력한 감독에 의존함에도 불구하고, 최첨단 예측 접근법들은 보이지 않는 데이터에 대해 일반적으로 잘 일반화하지 못합니다. 이 문제를 완화하기 위해, 우리는 다중 스케일 비디오 사전 학습(MVP)이라는 새로운 자기 지도 학습 사전 학습 접근법을 제안합니다. MVP는 다양한 시간 스케일에 걸쳐 미래 비디오 클립의 맥락화된 표현을 예측함으로써 강력한 표현을 학습합니다. MVP는 비디오 내 행동이 다중 스케일 특성을 가진다는 관찰에 기반을 두고 있으며, 여기서 원자적 행동은 일반적으로 짧은 시간 스케일에서 발생하고 더 복잡한 행동은 더 긴 시간 스케일에 걸쳐 나타납니다. 우리는 MVP를 장기 행동 예측 및 비디오 요약 예측을 포함한 하위 작업에서 최첨단 자기 지도 비디오 학습 접근법들과 비교합니다. Ego4D 및 Epic-Kitchens-55/100 데이터셋에 걸친 포괄적인 실험을 통해 MVP가 최첨단 방법들을 상당한 차이로 능가함을 입증합니다. 특히, MVP는 기존 방법들에 비해 비디오 요약 예측에서 20% 이상의 상대적 성능 향상을 달성합니다.
English
Long-term activity forecasting is an especially challenging research problem
because it requires understanding the temporal relationships between observed
actions, as well as the variability and complexity of human activities. Despite
relying on strong supervision via expensive human annotations, state-of-the-art
forecasting approaches often generalize poorly to unseen data. To alleviate
this issue, we propose Multiscale Video Pretraining (MVP), a novel
self-supervised pretraining approach that learns robust representations for
forecasting by learning to predict contextualized representations of future
video clips over multiple timescales. MVP is based on our observation that
actions in videos have a multiscale nature, where atomic actions typically
occur at a short timescale and more complex actions may span longer timescales.
We compare MVP to state-of-the-art self-supervised video learning approaches on
downstream long-term forecasting tasks including long-term action anticipation
and video summary prediction. Our comprehensive experiments across the Ego4D
and Epic-Kitchens-55/100 datasets demonstrate that MVP out-performs
state-of-the-art methods by significant margins. Notably, MVP obtains a
relative performance gain of over 20% accuracy in video summary forecasting
over existing methods.