速さと遅さを見る:映像における時間の流れの学習
Seeing Fast and Slow: Learning the Flow of Time in Videos
April 23, 2026
著者: Yen-Siang Wu, Rundong Luo, Jingsen Zhu, Tao Tu, Ali Farhadi, Matthew Wallingford, Yu-Chiang Frank Wang, Steve Marschner, Wei-Chiu Ma
cs.AI
要旨
動画が速回しまたはスローモーションになっているかどうかをどのように判断できるでしょうか?また、異なる速度の動画をどのように生成できるでしょうか?動画は現代のコンピュータビジョン研究の中心的存在でありながら、時間の経過を認識し制御することにはほとんど注目が払われてきませんでした。本論文では、時間を学習可能な視覚概念として捉え、動画における時間の流れを推論し操作するためのモデルを開発します。まず、動画に自然に存在するマルチモーダルな手がかりと時間的構造を活用し、自己教師あり学習によって速度変化の検出と再生速度の推定を行います。次に、これらの学習済み時間推論モデルを用いて、雑多な実世界のソースから過去最大のスローモーション動画データセットを構築できることを示します。通常は高速度カメラで撮影されるこうしたスローモーション映像は、標準的な動画よりも本質的に豊かな時間的詳細を含んでいます。このデータを活用し、私たちはさらに時間制御が可能なモデルを開発します。これには、指定された再生速度で動きを生成する「速度条件付き動画生成」や、低FPSでぼやけた動画を微細な時間的詳細を持つ高FPSシーケンスに変換する「時間的超解像」が含まれます。私たちの発見は、時間が動画学習において操作可能な知覚的次元であることを浮き彫りにし、時間制御可能な動画生成、時間的フォレンジック検出、そして時間経過に伴う事象の展開を理解するより豊かな世界モデルへの道を開くものです。
English
How can we tell whether a video has been sped up or slowed down? How can we generate videos at different speeds? Although videos have been central to modern computer vision research, little attention has been paid to perceiving and controlling the passage of time. In this paper, we study time as a learnable visual concept and develop models for reasoning about and manipulating the flow of time in videos. We first exploit the multimodal cues and temporal structure naturally present in videos to learn, in a self-supervised manner, to detect speed changes and estimate playback speed. We then show that these learned temporal reasoning models enable us to curate the largest slow-motion video dataset to date from noisy in-the-wild sources. Such slow-motion footage, typically filmed by high-speed cameras, contains substantially richer temporal detail than standard videos. Using this data, we further develop models capable of temporal control, including speed-conditioned video generation, which produces motion at specified playback speed, and temporal super-resolution, which tranforms low-FPS, blurry videos into high-FPS sequences with fine-grained temporal details. Our findings highlight time as a manipulable, perceptual dimension in video learning, opening doors to temporally controllable video generation, temporal forensics detection, and potentially richer world-models that understand how events unfold over time.