К пониманию движений камеры в любом видеоTowards Understanding Camera Motions in Any Video
Мы представляем CameraBench — масштабный набор данных и эталонный тест, предназначенные для оценки и улучшения понимания движений камеры. CameraBench включает около 3000 разнообразных интернет-видео, аннотированных экспертами в рамках строгого многоэтапного процесса контроля качества. Одним из наших вкладов является таксономия базовых движений камеры, разработанная совместно с кинооператорами. Мы обнаружили, например, что некоторые движения, такие как "следование" (или трекинг), требуют понимания содержания сцены, например, движущихся объектов. Мы провели масштабное исследование с участием людей, чтобы количественно оценить качество аннотаций, и выяснили, что экспертные знания и обучение на основе обучающих материалов могут значительно повысить точность. Например, новичок может спутать увеличение (изменение внутренних параметров) с движением вперед (изменение внешних параметров), но может быть обучен различать их. Используя CameraBench, мы оценили модели Structure-from-Motion (SfM) и Video-Language Models (VLMs), обнаружив, что модели SfM испытывают трудности с захватом семантических базовых движений, зависящих от содержания сцены, в то время как VLMs плохо справляются с геометрическими базовыми движениями, требующими точного расчета траекторий. Затем мы дообучили генеративную VLM на CameraBench, чтобы объединить лучшие качества обеих моделей, и продемонстрировали её приложения, включая создание подписей с учетом движений камеры, ответы на вопросы по видео и поиск видео по тексту. Мы надеемся, что наша таксономия, эталонный тест и обучающие материалы будут способствовать дальнейшим усилиям в достижении конечной цели — понимания движений камеры в любом видео.