Viendo Rápido y Lento: Aprendiendo el Flujo del Tiempo en Videos

Resumen

¿Cómo podemos determinar si un video ha sido acelerado o ralentizado? ¿Y cómo podemos generar videos a diferentes velocidades? Aunque los videos han sido centrales en la investigación moderna de visión por computadora, se ha prestado poca atención a la percepción y el control del paso del tiempo. En este artículo, estudiamos el tiempo como un concepto visual aprendible y desarrollamos modelos para razonar y manipular el flujo del tiempo en los videos. Primero, explotamos las pistas multimodales y la estructura temporal presentes naturalmente en los videos para aprender, de manera autosupervisada, a detectar cambios de velocidad y estimar la velocidad de reproducción. Luego, demostramos que estos modelos de razonamiento temporal aprendidos nos permiten curar el conjunto de datos de video en cámara lenta más grande hasta la fecha, a partir de fuentes ruidosas del mundo real. Este tipo de metraje en cámara lenta, filmado típicamente con cámaras de alta velocidad, contiene un detalle temporal sustancialmente más rico que los videos estándar. Utilizando estos datos, desarrollamos además modelos capaces de control temporal, incluyendo la generación de video condicionada por velocidad, que produce movimiento a una velocidad de reproducción especificada, y la súper resolución temporal, que transforma videos borrosos y de baja frecuencia de cuadros (FPS) en secuencias de alta FPS con detalles temporales de grano fino. Nuestros hallazgos destacan el tiempo como una dimensión perceptual manipulable en el aprendizaje de video, abriendo puertas a la generación de video temporalmente controlable, la detección forense temporal y, potencialmente, a modelos del mundo más ricos que comprenden cómo se desarrollan los eventos a lo largo del tiempo.

English

How can we tell whether a video has been sped up or slowed down? How can we generate videos at different speeds? Although videos have been central to modern computer vision research, little attention has been paid to perceiving and controlling the passage of time. In this paper, we study time as a learnable visual concept and develop models for reasoning about and manipulating the flow of time in videos. We first exploit the multimodal cues and temporal structure naturally present in videos to learn, in a self-supervised manner, to detect speed changes and estimate playback speed. We then show that these learned temporal reasoning models enable us to curate the largest slow-motion video dataset to date from noisy in-the-wild sources. Such slow-motion footage, typically filmed by high-speed cameras, contains substantially richer temporal detail than standard videos. Using this data, we further develop models capable of temporal control, including speed-conditioned video generation, which produces motion at specified playback speed, and temporal super-resolution, which tranforms low-FPS, blurry videos into high-FPS sequences with fine-grained temporal details. Our findings highlight time as a manipulable, perceptual dimension in video learning, opening doors to temporally controllable video generation, temporal forensics detection, and potentially richer world-models that understand how events unfold over time.

Viendo Rápido y Lento: Aprendiendo el Flujo del Tiempo en Videos

Seeing Fast and Slow: Learning the Flow of Time in Videos

Resumen

Support