Verso la Comprensione dei Movimenti della Fotocamera in Qualsiasi VideoTowards Understanding Camera Motions in Any Video
Presentiamo CameraBench, un dataset su larga scala e un benchmark progettato per valutare e migliorare la comprensione del movimento della telecamera. CameraBench è composto da circa 3.000 video eterogenei provenienti da internet, annotati da esperti attraverso un rigoroso processo di controllo qualità in più fasi. Uno dei nostri contributi è una tassonomia dei movimenti primitivi della telecamera, sviluppata in collaborazione con cinematografi. Scopriamo, ad esempio, che alcuni movimenti come il "follow" (o inseguimento) richiedono la comprensione del contenuto della scena, come i soggetti in movimento. Abbiamo condotto uno studio su larga scala con partecipanti umani per quantificare le prestazioni delle annotazioni, rivelando che l'esperienza nel dominio e la formazione basata su tutorial possono migliorare significativamente l'accuratezza. Ad esempio, un principiante potrebbe confondere lo zoom-in (un cambiamento dei parametri intrinseci) con una traslazione in avanti (un cambiamento dei parametri estrinseci), ma può essere addestrato a distinguere i due. Utilizzando CameraBench, abbiamo valutato i modelli Structure-from-Motion (SfM) e i modelli Video-Language (VLM), scoprendo che i modelli SfM faticano a catturare i movimenti primitivi che dipendono dal contenuto della scena, mentre i VLM hanno difficoltà a catturare i movimenti primitivi geometrici che richiedono una stima precisa delle traiettorie. Abbiamo quindi ottimizzato un VLM generativo su CameraBench per ottenere il meglio di entrambi gli approcci e dimostrare le sue applicazioni, tra cui la generazione di didascalie arricchite dal movimento, il question answering su video e il retrieval video-testo. Speriamo che la nostra tassonomia, il benchmark e i tutorial possano guidare futuri sforzi verso l'obiettivo finale di comprendere i movimenti della telecamera in qualsiasi video.