Verso la Comprensione dei Movimenti della Fotocamera in Qualsiasi Video

Abstract

Presentiamo CameraBench, un dataset su larga scala e un benchmark progettato per valutare e migliorare la comprensione del movimento della telecamera. CameraBench è composto da circa 3.000 video eterogenei provenienti da internet, annotati da esperti attraverso un rigoroso processo di controllo qualità in più fasi. Uno dei nostri contributi è una tassonomia dei movimenti primitivi della telecamera, sviluppata in collaborazione con cinematografi. Scopriamo, ad esempio, che alcuni movimenti come il "follow" (o inseguimento) richiedono la comprensione del contenuto della scena, come i soggetti in movimento. Abbiamo condotto uno studio su larga scala con partecipanti umani per quantificare le prestazioni delle annotazioni, rivelando che l'esperienza nel dominio e la formazione basata su tutorial possono migliorare significativamente l'accuratezza. Ad esempio, un principiante potrebbe confondere lo zoom-in (un cambiamento dei parametri intrinseci) con una traslazione in avanti (un cambiamento dei parametri estrinseci), ma può essere addestrato a distinguere i due. Utilizzando CameraBench, abbiamo valutato i modelli Structure-from-Motion (SfM) e i modelli Video-Language (VLM), scoprendo che i modelli SfM faticano a catturare i movimenti primitivi che dipendono dal contenuto della scena, mentre i VLM hanno difficoltà a catturare i movimenti primitivi geometrici che richiedono una stima precisa delle traiettorie. Abbiamo quindi ottimizzato un VLM generativo su CameraBench per ottenere il meglio di entrambi gli approcci e dimostrare le sue applicazioni, tra cui la generazione di didascalie arricchite dal movimento, il question answering su video e il retrieval video-testo. Speriamo che la nostra tassonomia, il benchmark e i tutorial possano guidare futuri sforzi verso l'obiettivo finale di comprendere i movimenti della telecamera in qualsiasi video.

English

We introduce CameraBench, a large-scale dataset and benchmark designed to assess and improve camera motion understanding. CameraBench consists of ~3,000 diverse internet videos, annotated by experts through a rigorous multi-stage quality control process. One of our contributions is a taxonomy of camera motion primitives, designed in collaboration with cinematographers. We find, for example, that some motions like "follow" (or tracking) require understanding scene content like moving subjects. We conduct a large-scale human study to quantify human annotation performance, revealing that domain expertise and tutorial-based training can significantly enhance accuracy. For example, a novice may confuse zoom-in (a change of intrinsics) with translating forward (a change of extrinsics), but can be trained to differentiate the two. Using CameraBench, we evaluate Structure-from-Motion (SfM) and Video-Language Models (VLMs), finding that SfM models struggle to capture semantic primitives that depend on scene content, while VLMs struggle to capture geometric primitives that require precise estimation of trajectories. We then fine-tune a generative VLM on CameraBench to achieve the best of both worlds and showcase its applications, including motion-augmented captioning, video question answering, and video-text retrieval. We hope our taxonomy, benchmark, and tutorials will drive future efforts towards the ultimate goal of understanding camera motions in any video.

Verso la Comprensione dei Movimenti della Fotocamera in Qualsiasi Video

Towards Understanding Camera Motions in Any Video

Abstract

Support