Vedere veloce e lento: apprendere il flusso del tempo nei video

Abstract

Come possiamo determinare se un video è stato accelerato o rallentato? Come possiamo generare video a diverse velocità? Sebbene i video siano centrali nella ricerca moderna sulla visione artificiale, è stata prestata poca attenzione alla percezione e al controllo dello scorrere del tempo. In questo articolo, studiamo il tempo come concetto visivo apprendibile e sviluppiamo modelli per ragionare e manipolare il flusso temporale nei video. Sfruttiamo innanzitutto i segnali multimodali e la struttura temporale naturalmente presenti nei video per apprendere, in modo auto-supervisionato, a rilevare i cambiamenti di velocità e stimare la velocità di riproduzione. Mostriamo poi come questi modelli appresi di ragionamento temporale ci permettano di selezionare il più grande dataset di video al ralenti esistente, partendo da fonti rumorose e non controllate. Queste riprese al rallentatore, tipicamente girate con telecamere ad alta velocità, contengono dettagli temporali sostanzialmente più ricchi rispetto ai video standard. Utilizzando questi dati, sviluppiamo ulteriormente modelli capaci di controllo temporale, inclusa la generazione di video condizionata dalla velocità, che produce movimenti a una velocità di riproduzione specificata, e la super-risoluzione temporale, che trasforma video a basso fps e sfocati in sequenze ad alto fps con dettagli temporali fini. I nostri risultati evidenziano il tempo come una dimensione percettiva manipolabile nell'apprendimento video, aprendo le porte alla generazione di video temporalmente controllabile, al rilevamento forense temporale e potenzialmente a modelli del mondo più ricchi che comprendono come gli eventi si svolgono nel tempo.

English

How can we tell whether a video has been sped up or slowed down? How can we generate videos at different speeds? Although videos have been central to modern computer vision research, little attention has been paid to perceiving and controlling the passage of time. In this paper, we study time as a learnable visual concept and develop models for reasoning about and manipulating the flow of time in videos. We first exploit the multimodal cues and temporal structure naturally present in videos to learn, in a self-supervised manner, to detect speed changes and estimate playback speed. We then show that these learned temporal reasoning models enable us to curate the largest slow-motion video dataset to date from noisy in-the-wild sources. Such slow-motion footage, typically filmed by high-speed cameras, contains substantially richer temporal detail than standard videos. Using this data, we further develop models capable of temporal control, including speed-conditioned video generation, which produces motion at specified playback speed, and temporal super-resolution, which tranforms low-FPS, blurry videos into high-FPS sequences with fine-grained temporal details. Our findings highlight time as a manipulable, perceptual dimension in video learning, opening doors to temporally controllable video generation, temporal forensics detection, and potentially richer world-models that understand how events unfold over time.

Vedere veloce e lento: apprendere il flusso del tempo nei video

Seeing Fast and Slow: Learning the Flow of Time in Videos

Abstract

Support