ChatPaper.aiChatPaper

Hacia la Comprensión de los Movimientos de Cámara en Cualquier Video

Towards Understanding Camera Motions in Any Video

April 21, 2025
Autores: Zhiqiu Lin, Siyuan Cen, Daniel Jiang, Jay Karhade, Hewei Wang, Chancharik Mitra, Tiffany Ling, Yuhan Huang, Sifan Liu, Mingyu Chen, Rushikesh Zawar, Xue Bai, Yilun Du, Chuang Gan, Deva Ramanan
cs.AI

Resumen

Presentamos CameraBench, un conjunto de datos a gran escala y un punto de referencia diseñado para evaluar y mejorar la comprensión del movimiento de la cámara. CameraBench consta de aproximadamente 3,000 videos diversos de internet, anotados por expertos mediante un riguroso proceso de control de calidad en múltiples etapas. Una de nuestras contribuciones es una taxonomía de primitivas de movimiento de cámara, diseñada en colaboración con cinematógrafos. Descubrimos, por ejemplo, que algunos movimientos como "seguir" (o seguimiento) requieren comprender el contenido de la escena, como sujetos en movimiento. Realizamos un estudio a gran escala con humanos para cuantificar el rendimiento de las anotaciones humanas, revelando que la experiencia en el dominio y el entrenamiento basado en tutoriales pueden mejorar significativamente la precisión. Por ejemplo, un novato puede confundir el zoom (un cambio de parámetros intrínsecos) con el avance hacia adelante (un cambio de parámetros extrínsecos), pero puede ser entrenado para diferenciar ambos. Utilizando CameraBench, evaluamos modelos de Estructura a partir del Movimiento (SfM) y Modelos de Video-Lenguaje (VLMs), encontrando que los modelos SfM tienen dificultades para capturar primitivas semánticas que dependen del contenido de la escena, mientras que los VLMs tienen dificultades para capturar primitivas geométricas que requieren una estimación precisa de trayectorias. Luego, ajustamos un VLM generativo en CameraBench para lograr lo mejor de ambos mundos y mostramos sus aplicaciones, incluyendo subtítulos aumentados con movimiento, respuesta a preguntas en video y recuperación de video-texto. Esperamos que nuestra taxonomía, punto de referencia y tutoriales impulsen futuros esfuerzos hacia el objetivo final de comprender los movimientos de la cámara en cualquier video.
English
We introduce CameraBench, a large-scale dataset and benchmark designed to assess and improve camera motion understanding. CameraBench consists of ~3,000 diverse internet videos, annotated by experts through a rigorous multi-stage quality control process. One of our contributions is a taxonomy of camera motion primitives, designed in collaboration with cinematographers. We find, for example, that some motions like "follow" (or tracking) require understanding scene content like moving subjects. We conduct a large-scale human study to quantify human annotation performance, revealing that domain expertise and tutorial-based training can significantly enhance accuracy. For example, a novice may confuse zoom-in (a change of intrinsics) with translating forward (a change of extrinsics), but can be trained to differentiate the two. Using CameraBench, we evaluate Structure-from-Motion (SfM) and Video-Language Models (VLMs), finding that SfM models struggle to capture semantic primitives that depend on scene content, while VLMs struggle to capture geometric primitives that require precise estimation of trajectories. We then fine-tune a generative VLM on CameraBench to achieve the best of both worlds and showcase its applications, including motion-augmented captioning, video question answering, and video-text retrieval. We hope our taxonomy, benchmark, and tutorials will drive future efforts towards the ultimate goal of understanding camera motions in any video.

Summary

AI-Generated Summary

PDF1432April 28, 2025