Verso la Comprensione dei Movimenti della Fotocamera in Qualsiasi Video
Towards Understanding Camera Motions in Any Video
April 21, 2025
Autori: Zhiqiu Lin, Siyuan Cen, Daniel Jiang, Jay Karhade, Hewei Wang, Chancharik Mitra, Tiffany Ling, Yuhan Huang, Sifan Liu, Mingyu Chen, Rushikesh Zawar, Xue Bai, Yilun Du, Chuang Gan, Deva Ramanan
cs.AI
Abstract
Presentiamo CameraBench, un dataset su larga scala e un benchmark progettato per valutare e migliorare la comprensione del movimento della telecamera. CameraBench è composto da circa 3.000 video eterogenei provenienti da internet, annotati da esperti attraverso un rigoroso processo di controllo qualità in più fasi. Uno dei nostri contributi è una tassonomia dei movimenti primitivi della telecamera, sviluppata in collaborazione con cinematografi. Scopriamo, ad esempio, che alcuni movimenti come il "follow" (o inseguimento) richiedono la comprensione del contenuto della scena, come i soggetti in movimento. Abbiamo condotto uno studio su larga scala con partecipanti umani per quantificare le prestazioni delle annotazioni, rivelando che l'esperienza nel dominio e la formazione basata su tutorial possono migliorare significativamente l'accuratezza. Ad esempio, un principiante potrebbe confondere lo zoom-in (un cambiamento dei parametri intrinseci) con una traslazione in avanti (un cambiamento dei parametri estrinseci), ma può essere addestrato a distinguere i due. Utilizzando CameraBench, abbiamo valutato i modelli Structure-from-Motion (SfM) e i modelli Video-Language (VLM), scoprendo che i modelli SfM faticano a catturare i movimenti primitivi che dipendono dal contenuto della scena, mentre i VLM hanno difficoltà a catturare i movimenti primitivi geometrici che richiedono una stima precisa delle traiettorie. Abbiamo quindi ottimizzato un VLM generativo su CameraBench per ottenere il meglio di entrambi gli approcci e dimostrare le sue applicazioni, tra cui la generazione di didascalie arricchite dal movimento, il question answering su video e il retrieval video-testo. Speriamo che la nostra tassonomia, il benchmark e i tutorial possano guidare futuri sforzi verso l'obiettivo finale di comprendere i movimenti della telecamera in qualsiasi video.
English
We introduce CameraBench, a large-scale dataset and benchmark designed to
assess and improve camera motion understanding. CameraBench consists of ~3,000
diverse internet videos, annotated by experts through a rigorous multi-stage
quality control process. One of our contributions is a taxonomy of camera
motion primitives, designed in collaboration with cinematographers. We find,
for example, that some motions like "follow" (or tracking) require
understanding scene content like moving subjects. We conduct a large-scale
human study to quantify human annotation performance, revealing that domain
expertise and tutorial-based training can significantly enhance accuracy. For
example, a novice may confuse zoom-in (a change of intrinsics) with translating
forward (a change of extrinsics), but can be trained to differentiate the two.
Using CameraBench, we evaluate Structure-from-Motion (SfM) and Video-Language
Models (VLMs), finding that SfM models struggle to capture semantic primitives
that depend on scene content, while VLMs struggle to capture geometric
primitives that require precise estimation of trajectories. We then fine-tune a
generative VLM on CameraBench to achieve the best of both worlds and showcase
its applications, including motion-augmented captioning, video question
answering, and video-text retrieval. We hope our taxonomy, benchmark, and
tutorials will drive future efforts towards the ultimate goal of understanding
camera motions in any video.