К пониманию движений камеры в любом видео

Аннотация

Мы представляем CameraBench — масштабный набор данных и эталонный тест, предназначенные для оценки и улучшения понимания движений камеры. CameraBench включает около 3000 разнообразных интернет-видео, аннотированных экспертами в рамках строгого многоэтапного процесса контроля качества. Одним из наших вкладов является таксономия базовых движений камеры, разработанная совместно с кинооператорами. Мы обнаружили, например, что некоторые движения, такие как "следование" (или трекинг), требуют понимания содержания сцены, например, движущихся объектов. Мы провели масштабное исследование с участием людей, чтобы количественно оценить качество аннотаций, и выяснили, что экспертные знания и обучение на основе обучающих материалов могут значительно повысить точность. Например, новичок может спутать увеличение (изменение внутренних параметров) с движением вперед (изменение внешних параметров), но может быть обучен различать их. Используя CameraBench, мы оценили модели Structure-from-Motion (SfM) и Video-Language Models (VLMs), обнаружив, что модели SfM испытывают трудности с захватом семантических базовых движений, зависящих от содержания сцены, в то время как VLMs плохо справляются с геометрическими базовыми движениями, требующими точного расчета траекторий. Затем мы дообучили генеративную VLM на CameraBench, чтобы объединить лучшие качества обеих моделей, и продемонстрировали её приложения, включая создание подписей с учетом движений камеры, ответы на вопросы по видео и поиск видео по тексту. Мы надеемся, что наша таксономия, эталонный тест и обучающие материалы будут способствовать дальнейшим усилиям в достижении конечной цели — понимания движений камеры в любом видео.

English

We introduce CameraBench, a large-scale dataset and benchmark designed to assess and improve camera motion understanding. CameraBench consists of ~3,000 diverse internet videos, annotated by experts through a rigorous multi-stage quality control process. One of our contributions is a taxonomy of camera motion primitives, designed in collaboration with cinematographers. We find, for example, that some motions like "follow" (or tracking) require understanding scene content like moving subjects. We conduct a large-scale human study to quantify human annotation performance, revealing that domain expertise and tutorial-based training can significantly enhance accuracy. For example, a novice may confuse zoom-in (a change of intrinsics) with translating forward (a change of extrinsics), but can be trained to differentiate the two. Using CameraBench, we evaluate Structure-from-Motion (SfM) and Video-Language Models (VLMs), finding that SfM models struggle to capture semantic primitives that depend on scene content, while VLMs struggle to capture geometric primitives that require precise estimation of trajectories. We then fine-tune a generative VLM on CameraBench to achieve the best of both worlds and showcase its applications, including motion-augmented captioning, video question answering, and video-text retrieval. We hope our taxonomy, benchmark, and tutorials will drive future efforts towards the ultimate goal of understanding camera motions in any video.

К пониманию движений камеры в любом видео

Towards Understanding Camera Motions in Any Video

Аннотация

Support