Schnell und Langsam Sehen: Das Erlernen des Zeitflusses in Videos

Zusammenfassung

Wie können wir feststellen, ob ein Video beschleunigt oder verlangsamt wurde? Wie können wir Videos mit unterschiedlichen Geschwindigkeiten erzeugen? Obwohl Videos im Mittelpunkt moderner Computer-Vision-Forschung stehen, wurde der Wahrnehmung und Steuerung des Zeitverlaufs bisher wenig Beachtung geschenkt. In dieser Arbeit untersuchen wir Zeit als ein erlernbares visuelles Konzept und entwickeln Modelle, um den Zeitfluss in Videos zu analysieren und zu manipulieren. Zunächst nutzen wir die multimodalen Hinweise und die zeitliche Struktur, die natürlicherweise in Videos vorhanden sind, um auf selbstüberwachte Weise zu lernen, Geschwindigkeitsänderungen zu erkennen und die Abspielgeschwindigkeit zu schätzen. Anschließend zeigen wir, dass diese gelernten Modelle zur zeitlichen Analyse es uns ermöglichen, den bisher größten Slow-Motion-Video-Datensatz aus verrauschten, unkontrollierten Quellen zusammenzustellen. Solche Slow-Motion-Aufnahmen, die typischerweise mit Hochgeschwindigkeitskameras gefilmt werden, enthalten wesentlich reichere zeitliche Details als Standardvideos. Mithilfe dieser Daten entwickeln wir weiterhin Modelle, die zeitliche Kontrolle ermöglichen, darunter geschwindigkeitsbedingte Videogenerierung, die Bewegung mit vorgegebener Abspielgeschwindigkeit erzeugt, und zeitliche Superauflösung, die Videos mit niedriger Bildrate und unscharfe Aufnahmen in Sequenzen mit hoher Bildrate und feinkörnigen zeitlichen Details umwandelt. Unsere Ergebnisse unterstreichen die Zeit als eine manipulierbare, wahrnehmbare Dimension im Videolernen und eröffnen Türen zu zeitlich steuerbarer Videogenerierung, zeitlicher Forensik-Erkennung und potenziell reicheren Weltmodellen, die verstehen, wie sich Ereignisse über die Zeit entfalten.

English

How can we tell whether a video has been sped up or slowed down? How can we generate videos at different speeds? Although videos have been central to modern computer vision research, little attention has been paid to perceiving and controlling the passage of time. In this paper, we study time as a learnable visual concept and develop models for reasoning about and manipulating the flow of time in videos. We first exploit the multimodal cues and temporal structure naturally present in videos to learn, in a self-supervised manner, to detect speed changes and estimate playback speed. We then show that these learned temporal reasoning models enable us to curate the largest slow-motion video dataset to date from noisy in-the-wild sources. Such slow-motion footage, typically filmed by high-speed cameras, contains substantially richer temporal detail than standard videos. Using this data, we further develop models capable of temporal control, including speed-conditioned video generation, which produces motion at specified playback speed, and temporal super-resolution, which tranforms low-FPS, blurry videos into high-FPS sequences with fine-grained temporal details. Our findings highlight time as a manipulable, perceptual dimension in video learning, opening doors to temporally controllable video generation, temporal forensics detection, and potentially richer world-models that understand how events unfold over time.

Schnell und Langsam Sehen: Das Erlernen des Zeitflusses in Videos

Seeing Fast and Slow: Learning the Flow of Time in Videos

Zusammenfassung

Support