Видеть быстрое и медленное: изучение временного потока в видеороликах
Seeing Fast and Slow: Learning the Flow of Time in Videos
April 23, 2026
Авторы: Yen-Siang Wu, Rundong Luo, Jingsen Zhu, Tao Tu, Ali Farhadi, Matthew Wallingford, Yu-Chiang Frank Wang, Steve Marschner, Wei-Chiu Ma
cs.AI
Аннотация
Как определить, был ли видеофайл ускорен или замедлен? Каким образом можно генерировать видео с разной скоростью воспроизведения? Несмотря на центральную роль видео в современных исследованиях компьютерного зрения, проблеме восприятия и управления течением времени уделялось мало внимания. В данной работе мы исследуем время как обучаемую визуальную концепцию и разрабатываем модели для анализа и манипуляции временным потоком в видео. Сначала мы используем многомодальные сигналы и временную структуру, естественным образом присутствующие в видео, чтобы обучить модели в самообучающемся режиме обнаруживать изменения скорости и оценивать скорость воспроизведения. Затем мы демонстрируем, что эти обученные модели временного анализа позволяют нам создать крупнейший на сегодняшний день датасет замедленных видео из зашумленных источников реального мира. Такие замедленные записи, обычно снятые высокоскоростными камерами, содержат значительно более богатые временные детали по сравнению со стандартными видео. Используя эти данные, мы далее разрабатываем модели, способные к временному контролю, включая генерацию видео с условием по скорости, которая воспроизводит движение с заданной скоростью, и временное супер-разрешение, преобразующее размытые видео с низким FPS в последовательности с высоким FPS и детализированной временной структурой. Наши результаты подчеркивают время как управляемое перцептивное измерение в обучении видео, открывая пути к созданию видео с временным контролем, временной криминалистической экспертизе и потенциально более богатым моделям мира, понимающим, как события разворачиваются во времени.
English
How can we tell whether a video has been sped up or slowed down? How can we generate videos at different speeds? Although videos have been central to modern computer vision research, little attention has been paid to perceiving and controlling the passage of time. In this paper, we study time as a learnable visual concept and develop models for reasoning about and manipulating the flow of time in videos. We first exploit the multimodal cues and temporal structure naturally present in videos to learn, in a self-supervised manner, to detect speed changes and estimate playback speed. We then show that these learned temporal reasoning models enable us to curate the largest slow-motion video dataset to date from noisy in-the-wild sources. Such slow-motion footage, typically filmed by high-speed cameras, contains substantially richer temporal detail than standard videos. Using this data, we further develop models capable of temporal control, including speed-conditioned video generation, which produces motion at specified playback speed, and temporal super-resolution, which tranforms low-FPS, blurry videos into high-FPS sequences with fine-grained temporal details. Our findings highlight time as a manipulable, perceptual dimension in video learning, opening doors to temporally controllable video generation, temporal forensics detection, and potentially richer world-models that understand how events unfold over time.