Voir vite et lentement : Apprendre le flux temporel dans les vidéos

Résumé

Comment déterminer si une vidéo a été accélérée ou ralentie ? Comment générer des vidéos à différentes vitesses ? Bien que les vidéos occupent une place centrale dans la recherche moderne en vision par ordinateur, peu d'attention a été accordée à la perception et au contrôle de l'écoulement du temps. Dans cet article, nous étudions le temps comme un concept visuel apprenable et développons des modèles pour raisonner sur le flux temporel des vidéos et le manipuler. Nous exploitons d'abord les indices multimodaux et la structure temporelle naturellement présents dans les vidéos pour apprendre, de manière auto-supervisée, à détecter les changements de vitesse et à estimer la vitesse de lecture. Nous montrons ensuite que ces modèles de raisonnement temporel appris nous permettent de constituer la plus grande base de données de vidéos au ralenti à ce jour à partir de sources bruyantes et non contrôlées. Ces séquences au ralenti, généralement filmées par des caméras haute vitesse, contiennent des détails temporels substantiellement plus riches que les vidéos standard. En utilisant ces données, nous développons davantage des modèles capables de contrôle temporel, incluant la génération vidéo conditionnée par la vitesse – qui produit un mouvement à une vitesse de lecture spécifiée – et la super-résolution temporelle, qui transforme des vidéos floues à faible FPS en séquences à FPS élevé avec des détails temporels fins. Nos résultats mettent en lumière le temps comme une dimension perceptuelle manipulable dans l'apprentissage vidéo, ouvrant la voie à la génération vidéo temporellement contrôlable, à la détection forensique temporelle, et potentiellement à des modèles du monde plus riches qui comprennent comment les événements se déroulent dans le temps.

English

How can we tell whether a video has been sped up or slowed down? How can we generate videos at different speeds? Although videos have been central to modern computer vision research, little attention has been paid to perceiving and controlling the passage of time. In this paper, we study time as a learnable visual concept and develop models for reasoning about and manipulating the flow of time in videos. We first exploit the multimodal cues and temporal structure naturally present in videos to learn, in a self-supervised manner, to detect speed changes and estimate playback speed. We then show that these learned temporal reasoning models enable us to curate the largest slow-motion video dataset to date from noisy in-the-wild sources. Such slow-motion footage, typically filmed by high-speed cameras, contains substantially richer temporal detail than standard videos. Using this data, we further develop models capable of temporal control, including speed-conditioned video generation, which produces motion at specified playback speed, and temporal super-resolution, which tranforms low-FPS, blurry videos into high-FPS sequences with fine-grained temporal details. Our findings highlight time as a manipulable, perceptual dimension in video learning, opening doors to temporally controllable video generation, temporal forensics detection, and potentially richer world-models that understand how events unfold over time.

Voir vite et lentement : Apprendre le flux temporel dans les vidéos

Seeing Fast and Slow: Learning the Flow of Time in Videos

Résumé

Support