Zien in snel en langzaam: De stroom van tijd in video's leren

Samenvatting

Hoe kunnen we vaststellen of een video versneld of vertraagd is afgespeeld? En hoe kunnen we video's genereren met verschillende snelheden? Hoewel video's centraal staan in modern computer vision-onderzoek, is er weinig aandacht geweest voor het waarnemen en controleren van het tijdsverloop. In dit artikel bestuderen we tijd als een leerbaar visueel concept en ontwikkelen we modellen voor het redeneren over en manipuleren van de tijdstroom in video's. We benutten eerst de multimodale signalen en temporele structuur die van nature in video's aanwezig zijn om op een zelfgesuperviseerde manier te leren snelheidsveranderingen te detecteren en de afspeelsnelheid in te schatten. Vervolgens tonen we aan dat deze geleerde temporele redeneermodellen ons in staat stellen de grootste slow-motion videodataset tot nu toe samen te stellen uit lawaaierige, in het wild verzamelde bronnen. Dergelijke slow-motion beelden, doorgaans opgenomen met high-speed camera's, bevatten aanzienlijk rijkere temporele details dan standaardvideo's. Met deze data ontwikkelen we verder modellen die temporele controle mogelijk maken, waaronder snelheidsgeconditioneerde videogeneratie – die beweging produceert met een gespecificeerde afspeelsnelheid – en temporele superresolutie, die video's met een lage framesnelheid en motion blur omzet in sequenties met een hoge framesnelheid en fijnmazige temporele details. Onze bevindingen benadrukken tijd als een manipuleerbare, perceptuele dimensie in videoleren, wat de deur opent naar temporeel controleerbare videogeneratie, temporele forensische detectie en mogelijk rijkere wereldmodellen die begrijpen hoe gebeurtenissen zich in de tijd ontvouwen.

English

How can we tell whether a video has been sped up or slowed down? How can we generate videos at different speeds? Although videos have been central to modern computer vision research, little attention has been paid to perceiving and controlling the passage of time. In this paper, we study time as a learnable visual concept and develop models for reasoning about and manipulating the flow of time in videos. We first exploit the multimodal cues and temporal structure naturally present in videos to learn, in a self-supervised manner, to detect speed changes and estimate playback speed. We then show that these learned temporal reasoning models enable us to curate the largest slow-motion video dataset to date from noisy in-the-wild sources. Such slow-motion footage, typically filmed by high-speed cameras, contains substantially richer temporal detail than standard videos. Using this data, we further develop models capable of temporal control, including speed-conditioned video generation, which produces motion at specified playback speed, and temporal super-resolution, which tranforms low-FPS, blurry videos into high-FPS sequences with fine-grained temporal details. Our findings highlight time as a manipulable, perceptual dimension in video learning, opening doors to temporally controllable video generation, temporal forensics detection, and potentially richer world-models that understand how events unfold over time.

Zien in snel en langzaam: De stroom van tijd in video's leren

Seeing Fast and Slow: Learning the Flow of Time in Videos

Samenvatting

Support