ChatPaper.aiChatPaper

모든 비디오에서 카메라 모션 이해하기

Towards Understanding Camera Motions in Any Video

April 21, 2025
저자: Zhiqiu Lin, Siyuan Cen, Daniel Jiang, Jay Karhade, Hewei Wang, Chancharik Mitra, Tiffany Ling, Yuhan Huang, Sifan Liu, Mingyu Chen, Rushikesh Zawar, Xue Bai, Yilun Du, Chuang Gan, Deva Ramanan
cs.AI

초록

카메라 모션 이해를 평가하고 개선하기 위해 설계된 대규모 데이터셋 및 벤치마크인 CameraBench를 소개합니다. CameraBench는 약 3,000개의 다양한 인터넷 비디오로 구성되어 있으며, 엄격한 다단계 품질 관리 과정을 거쳐 전문가들이 주석을 달았습니다. 우리의 주요 기여 중 하나는 촬영 기사들과의 협업을 통해 설계된 카메라 모션 기본 요소의 분류 체계입니다. 예를 들어, "따라가기"(또는 트래킹)와 같은 일부 모션은 움직이는 피사체와 같은 장면 내용을 이해해야 합니다. 우리는 대규모 인간 연구를 통해 인간 주석 성능을 정량화했으며, 도메인 전문 지식과 튜토리얼 기반 훈련이 정확도를 크게 향상시킬 수 있음을 밝혔습니다. 예를 들어, 초보자는 줌인(내부 매개변수의 변화)과 전진 이동(외부 매개변수의 변화)을 혼동할 수 있지만, 이를 구별하도록 훈련될 수 있습니다. CameraBench를 사용하여 Structure-from-Motion(SfM)과 Video-Language Models(VLMs)을 평가한 결과, SfM 모델은 장면 내용에 의존하는 의미론적 기본 요소를 포착하는 데 어려움을 겪는 반면, VLMs은 궤적의 정확한 추정이 필요한 기하학적 기본 요소를 포착하는 데 어려움을 겪는 것으로 나타났습니다. 그런 다음 CameraBench에서 생성적 VLM을 미세 조정하여 두 가지의 장점을 모두 갖추고, 모션 보강 캡셔닝, 비디오 질문 응답, 비디오-텍스트 검색을 포함한 응용 사례를 보여줍니다. 우리의 분류 체계, 벤치마크, 튜토리얼이 어떤 비디오에서도 카메라 모션을 이해하려는 궁극적인 목표를 향한 미래의 노력을 이끌어가길 바랍니다.
English
We introduce CameraBench, a large-scale dataset and benchmark designed to assess and improve camera motion understanding. CameraBench consists of ~3,000 diverse internet videos, annotated by experts through a rigorous multi-stage quality control process. One of our contributions is a taxonomy of camera motion primitives, designed in collaboration with cinematographers. We find, for example, that some motions like "follow" (or tracking) require understanding scene content like moving subjects. We conduct a large-scale human study to quantify human annotation performance, revealing that domain expertise and tutorial-based training can significantly enhance accuracy. For example, a novice may confuse zoom-in (a change of intrinsics) with translating forward (a change of extrinsics), but can be trained to differentiate the two. Using CameraBench, we evaluate Structure-from-Motion (SfM) and Video-Language Models (VLMs), finding that SfM models struggle to capture semantic primitives that depend on scene content, while VLMs struggle to capture geometric primitives that require precise estimation of trajectories. We then fine-tune a generative VLM on CameraBench to achieve the best of both worlds and showcase its applications, including motion-augmented captioning, video question answering, and video-text retrieval. We hope our taxonomy, benchmark, and tutorials will drive future efforts towards the ultimate goal of understanding camera motions in any video.
PDF1572April 28, 2025