ViDiC: 비디오 차이 캡셔닝
ViDiC: Video Difference Captioning
December 3, 2025
저자: Jiangtao Wu, Shihao Li, Zhaozhou Bian, Yuanxing Zhang, Jialu Chen, Runzhe Wen, An Ping, Yiwen He, Jiakai Wang, Jiaheng Liu
cs.AI
초록
동적 장면 간의 시각적 차이를 이해하려면 구성적, 공간적, 시간적 변화에 대한 비교 인지 능력이 필요하나, 이는 기존 비전-언어 시스템에서 충분히 연구되지 않은 능력입니다. 기존의 이미지 차이 설명(IDC) 연구는 정적 이미지 간의 의미론적 변화를 기술하는 모델을 가능하게 했으나, 이러한 접근법은 시간에 따른 동작 연속성, 사건 진화 또는 편집 일관성을 포착하지 못합니다. 본 연구에서는 MLLM(멀티모달 대규모 언어 모델)이 비디오 쌍 간의 유사점과 차이점을 세밀하게 설명하는 능력을 평가하기 위해 설계된 ViDiC(비디오 차이 설명) 과제와 이에 상응하는 ViDiC-1K 데이터셋을 소개합니다. ViDiC-1K는 4,000개 이상의 비교 체크리스트 항목으로 주석 처리된 1,000개의 정제된 비디오 쌍으로 구성되며, 주체, 스타일, 배경, 촬영 기법, 동작, 장소, 재생 기술 등 7개 범주를 다룹니다. 신뢰할 수 있는 평가를 위해 LLM-as-a-Judge 프로토콜을 기반으로 유사성과 차이점의 정확도를 별도로 측정하는 이중 체크리스트 프레임워크를 제안합니다. 19개의 대표적인 멀티모달 모델에 대한 실험 결과, 이들의 비교 설명 및 차이 인지 능력에서 상당한 성능 격차가 확인되었습니다. ViDiC-1K가 멀티모달 인텔리전스의 비디오 이해, 편집 인식 및 비교 추론 능력 발전을 위한 견고한 기반을 마련하는 도전적인 벤치마크가 되기를 기대합니다.
English
Understanding visual differences between dynamic scenes requires the comparative perception of compositional, spatial, and temporal changes--a capability that remains underexplored in existing vision-language systems. While prior work on Image Difference Captioning (IDC) has enabled models to describe semantic changes between static images, these approaches fail to capture motion continuity, event evolution, or editing consistency over time. We introduce the ViDiC (Video Difference Captioning) task and its corresponding ViDiC-1K dataset, designed to evaluate the ability of Multimodal Large Language Models (MLLMs) to provide fine-grained descriptions of similarities and differences between video pairs. ViDiC-1K comprises 1,000 curated video pairs annotated with over 4,000 comparative checklist items, covering seven categories: subject, style, background, cinematography, motion, location, and playback techniques. To ensure reliable evaluation, we propose a dual-checklist framework that measures the accuracy of similarity and difference separately, based on the LLM-as-a-Judge protocol. Experiments on nineteen representative multimodal models reveal a significant performance gap in their comparative description and difference perception abilities. We hope ViDiC-1K can be a challenging benchmark that lays a solid foundation for advancing video understanding, edit awareness, and comparative reasoning in multimodal intelligence.