ChatPaper.aiChatPaper

Vers la compréhension des mouvements de caméra dans n'importe quelle vidéo

Towards Understanding Camera Motions in Any Video

April 21, 2025
Auteurs: Zhiqiu Lin, Siyuan Cen, Daniel Jiang, Jay Karhade, Hewei Wang, Chancharik Mitra, Tiffany Ling, Yuhan Huang, Sifan Liu, Mingyu Chen, Rushikesh Zawar, Xue Bai, Yilun Du, Chuang Gan, Deva Ramanan
cs.AI

Résumé

Nous présentons CameraBench, un ensemble de données à grande échelle et un benchmark conçus pour évaluer et améliorer la compréhension des mouvements de caméra. CameraBench se compose d'environ 3 000 vidéos internet variées, annotées par des experts à travers un processus rigoureux de contrôle qualité en plusieurs étapes. L'une de nos contributions est une taxonomie des primitives de mouvement de caméra, conçue en collaboration avec des cinéastes. Nous constatons, par exemple, que certains mouvements comme le "suivi" (ou tracking) nécessitent une compréhension du contenu de la scène, comme les sujets en mouvement. Nous menons une étude humaine à grande échelle pour quantifier la performance des annotations humaines, révélant que l'expertise du domaine et la formation basée sur des tutoriels peuvent considérablement améliorer la précision. Par exemple, un novice peut confondre un zoom avant (un changement des paramètres intrinsèques) avec une translation vers l'avant (un changement des paramètres extrinsèques), mais peut être formé pour les différencier. En utilisant CameraBench, nous évaluons les modèles de Structure-from-Motion (SfM) et les modèles Vidéo-Langage (VLMs), constatant que les modèles SfM peinent à capturer les primitives sémantiques qui dépendent du contenu de la scène, tandis que les VLMs ont du mal à capturer les primitives géométriques qui nécessitent une estimation précise des trajectoires. Nous affinons ensuite un VLM génératif sur CameraBench pour combiner les avantages des deux approches et démontrons ses applications, notamment la génération de légendes augmentées par le mouvement, la réponse à des questions sur des vidéos et la recherche vidéo-texte. Nous espérons que notre taxonomie, notre benchmark et nos tutoriels stimuleront les efforts futurs vers l'objectif ultime de comprendre les mouvements de caméra dans n'importe quelle vidéo.
English
We introduce CameraBench, a large-scale dataset and benchmark designed to assess and improve camera motion understanding. CameraBench consists of ~3,000 diverse internet videos, annotated by experts through a rigorous multi-stage quality control process. One of our contributions is a taxonomy of camera motion primitives, designed in collaboration with cinematographers. We find, for example, that some motions like "follow" (or tracking) require understanding scene content like moving subjects. We conduct a large-scale human study to quantify human annotation performance, revealing that domain expertise and tutorial-based training can significantly enhance accuracy. For example, a novice may confuse zoom-in (a change of intrinsics) with translating forward (a change of extrinsics), but can be trained to differentiate the two. Using CameraBench, we evaluate Structure-from-Motion (SfM) and Video-Language Models (VLMs), finding that SfM models struggle to capture semantic primitives that depend on scene content, while VLMs struggle to capture geometric primitives that require precise estimation of trajectories. We then fine-tune a generative VLM on CameraBench to achieve the best of both worlds and showcase its applications, including motion-augmented captioning, video question answering, and video-text retrieval. We hope our taxonomy, benchmark, and tutorials will drive future efforts towards the ultimate goal of understanding camera motions in any video.

Summary

AI-Generated Summary

PDF1432April 28, 2025