ChatPaper.aiChatPaper

Em Direção à Compreensão dos Movimentos da Câmera em Qualquer Vídeo

Towards Understanding Camera Motions in Any Video

April 21, 2025
Autores: Zhiqiu Lin, Siyuan Cen, Daniel Jiang, Jay Karhade, Hewei Wang, Chancharik Mitra, Tiffany Ling, Yuhan Huang, Sifan Liu, Mingyu Chen, Rushikesh Zawar, Xue Bai, Yilun Du, Chuang Gan, Deva Ramanan
cs.AI

Resumo

Apresentamos o CameraBench, um conjunto de dados em larga escala e um benchmark projetado para avaliar e aprimorar a compreensão do movimento da câmera. O CameraBench consiste em aproximadamente 3.000 vídeos diversos da internet, anotados por especialistas por meio de um rigoroso processo de controle de qualidade em múltiplas etapas. Uma de nossas contribuições é uma taxonomia de primitivas de movimento da câmera, desenvolvida em colaboração com cineastas. Descobrimos, por exemplo, que alguns movimentos como "seguir" (ou rastreamento) exigem a compreensão do conteúdo da cena, como objetos em movimento. Realizamos um estudo em larga escala com humanos para quantificar o desempenho da anotação humana, revelando que a expertise no domínio e o treinamento baseado em tutoriais podem melhorar significativamente a precisão. Por exemplo, um iniciante pode confundir zoom-in (uma mudança de parâmetros intrínsecos) com a translação para frente (uma mudança de parâmetros extrínsecos), mas pode ser treinado para diferenciar os dois. Utilizando o CameraBench, avaliamos modelos de Structure-from-Motion (SfM) e modelos de Vídeo-Linguagem (VLMs), descobrindo que os modelos SfM têm dificuldade em capturar primitivas semânticas que dependem do conteúdo da cena, enquanto os VLMs lutam para capturar primitivas geométricas que exigem uma estimativa precisa de trajetórias. Em seguida, ajustamos finamente um VLM generativo no CameraBench para alcançar o melhor dos dois mundos e demonstramos suas aplicações, incluindo legendagem aumentada por movimento, resposta a perguntas em vídeo e recuperação de vídeo-texto. Esperamos que nossa taxonomia, benchmark e tutoriais impulsionem esforços futuros em direção ao objetivo final de compreender os movimentos da câmera em qualquer vídeo.
English
We introduce CameraBench, a large-scale dataset and benchmark designed to assess and improve camera motion understanding. CameraBench consists of ~3,000 diverse internet videos, annotated by experts through a rigorous multi-stage quality control process. One of our contributions is a taxonomy of camera motion primitives, designed in collaboration with cinematographers. We find, for example, that some motions like "follow" (or tracking) require understanding scene content like moving subjects. We conduct a large-scale human study to quantify human annotation performance, revealing that domain expertise and tutorial-based training can significantly enhance accuracy. For example, a novice may confuse zoom-in (a change of intrinsics) with translating forward (a change of extrinsics), but can be trained to differentiate the two. Using CameraBench, we evaluate Structure-from-Motion (SfM) and Video-Language Models (VLMs), finding that SfM models struggle to capture semantic primitives that depend on scene content, while VLMs struggle to capture geometric primitives that require precise estimation of trajectories. We then fine-tune a generative VLM on CameraBench to achieve the best of both worlds and showcase its applications, including motion-augmented captioning, video question answering, and video-text retrieval. We hope our taxonomy, benchmark, and tutorials will drive future efforts towards the ultimate goal of understanding camera motions in any video.

Summary

AI-Generated Summary

PDF1432April 28, 2025