ChatPaper.aiChatPaper

빠르게 보고 느리게 보기: 비디오의 시간 흐름 학습

Seeing Fast and Slow: Learning the Flow of Time in Videos

April 23, 2026
저자: Yen-Siang Wu, Rundong Luo, Jingsen Zhu, Tao Tu, Ali Farhadi, Matthew Wallingford, Yu-Chiang Frank Wang, Steve Marschner, Wei-Chiu Ma
cs.AI

초록

영상의 재생 속도가 빨라졌는지 느려졌는지는 어떻게 판단할 수 있을까요? 다양한 속도의 영상을 생성하는 방법은 무엇일까요? 영상이 현대 컴퓨터 비전 연구의 핵심이 되어왔음에도 불구하고, 시간의 흐름을 인지하고 제어하는 문제에는 상대적으로 적은 관심이 기울여졌습니다. 본 논문에서는 시간을 학습 가능한 시각적 개념으로 연구하고, 영상 내 시간의 흐름을 추론하고 조작하는 모델을 개발합니다. 먼저, 영상에 자연스럽게 내재된 다중 모드 단서와 시간적 구조를 활용하여 자기 지도 학습 방식으로 속도 변화를 감지하고 재생 속도를 추정하는 방법을 학습합니다. 다음으로, 이러한 시간 추론 모델을 통해 야생에서 수집된 노이즈가 많은 자료로부터 현재까지 가장 규모가 큰 슬로우 모션 영상 데이터셋을 정제할 수 있음을 보여줍니다. 일반적으로 고속 카메라로 촬영되는 이러한 슬로우 모션 영상은 표준 영상보다 훨씬 풍부한 시간적 디테일을 포함하고 있습니다. 이 데이터를 활용하여 우리는 속도 조건 비디오 생성(지정된 재생 속도로 동작을 생성) 및 시간적 초해상도(저 FPS의 흐릿한 영상을 정교한 시간적 디테일을 가진 고 FPS 영상 시퀀스로 변환)를 포함한 시간 제어가 가능한 모델을 추가로 개발합니다. 우리의 연구 결과는 시간이 비디오 학습에서 조작 가능한 지각 차원임을 강조하며, 시간 제어 가능 비디오 생성, 시간적 포렌식 감지, 그리고 사건이 시간에 따라 어떻게 전개되는지 이해하는 더 풍부한 세계 모델로 나아갈 가능성을 열어줍니다.
English
How can we tell whether a video has been sped up or slowed down? How can we generate videos at different speeds? Although videos have been central to modern computer vision research, little attention has been paid to perceiving and controlling the passage of time. In this paper, we study time as a learnable visual concept and develop models for reasoning about and manipulating the flow of time in videos. We first exploit the multimodal cues and temporal structure naturally present in videos to learn, in a self-supervised manner, to detect speed changes and estimate playback speed. We then show that these learned temporal reasoning models enable us to curate the largest slow-motion video dataset to date from noisy in-the-wild sources. Such slow-motion footage, typically filmed by high-speed cameras, contains substantially richer temporal detail than standard videos. Using this data, we further develop models capable of temporal control, including speed-conditioned video generation, which produces motion at specified playback speed, and temporal super-resolution, which tranforms low-FPS, blurry videos into high-FPS sequences with fine-grained temporal details. Our findings highlight time as a manipulable, perceptual dimension in video learning, opening doors to temporally controllable video generation, temporal forensics detection, and potentially richer world-models that understand how events unfold over time.
PDF131April 25, 2026