Vendo Rápido e Devagar: Aprendendo o Fluxo do Tempo em Vídeos

Resumo

Como podemos determinar se um vídeo foi acelerado ou desacelerado? Como podemos gerar vídeos em diferentes velocidades? Embora os vídeos tenham sido centrais para a pesquisa moderna em visão computacional, pouca atenção foi dada à percepção e ao controle da passagem do tempo. Neste artigo, estudamos o tempo como um conceito visual aprendível e desenvolvemos modelos para raciocinar sobre e manipular o fluxo do tempo em vídeos. Primeiro, exploramos as pistas multimodais e a estrutura temporal naturalmente presentes nos vídeos para aprender, de maneira auto supervisionada, a detectar mudanças de velocidade e estimar a velocidade de reprodução. Em seguida, mostramos que esses modelos de raciocínio temporal aprendidos nos permitem curar o maior conjunto de dados de vídeo em câmera lenta até o momento, a partir de fontes ruidosas do mundo real. Essas filmagens em câmera lenta, geralmente gravadas por câmeras de alta velocidade, contêm detalhes temporais substancialmente mais ricos do que os vídeos padrão. Usando esses dados, desenvolvemos ainda mais modelos capazes de controle temporal, incluindo a geração de vídeo condicionada por velocidade, que produz movimento em uma velocidade de reprodução especificada, e a super-resolução temporal, que transforma vídeos borrados e de baixo FPS em sequências de alto FPS com detalhes temporais refinados. Nossos resultados destacam o tempo como uma dimensão perceptual manipulável no aprendizado de vídeo, abrindo portas para a geração de vídeo temporalmente controlável, a detecção forense temporal e, potencialmente, modelos de mundo mais ricos que compreendem como os eventos se desdobram ao longo do tempo.

English

How can we tell whether a video has been sped up or slowed down? How can we generate videos at different speeds? Although videos have been central to modern computer vision research, little attention has been paid to perceiving and controlling the passage of time. In this paper, we study time as a learnable visual concept and develop models for reasoning about and manipulating the flow of time in videos. We first exploit the multimodal cues and temporal structure naturally present in videos to learn, in a self-supervised manner, to detect speed changes and estimate playback speed. We then show that these learned temporal reasoning models enable us to curate the largest slow-motion video dataset to date from noisy in-the-wild sources. Such slow-motion footage, typically filmed by high-speed cameras, contains substantially richer temporal detail than standard videos. Using this data, we further develop models capable of temporal control, including speed-conditioned video generation, which produces motion at specified playback speed, and temporal super-resolution, which tranforms low-FPS, blurry videos into high-FPS sequences with fine-grained temporal details. Our findings highlight time as a manipulable, perceptual dimension in video learning, opening doors to temporally controllable video generation, temporal forensics detection, and potentially richer world-models that understand how events unfold over time.

Vendo Rápido e Devagar: Aprendendo o Fluxo do Tempo em Vídeos

Seeing Fast and Slow: Learning the Flow of Time in Videos

Resumo

Support