ChatPaper.aiChatPaper

ViDiC: Описание различий в видео

ViDiC: Video Difference Captioning

December 3, 2025
Авторы: Jiangtao Wu, Shihao Li, Zhaozhou Bian, Yuanxing Zhang, Jialu Chen, Runzhe Wen, An Ping, Yiwen He, Jiakai Wang, Jiaheng Liu
cs.AI

Аннотация

Понимание визуальных различий между динамическими сценами требует сравнительного восприятия композиционных, пространственных и временных изменений — способности, которая остаётся недостаточно изученной в существующих системах компьютерного зрения и языка. Хотя предыдущие работы по описанию различий между изображениями (Image Difference Captioning, IDC) позволили моделям описывать семантические изменения между статичными изображениями, эти подходы не способны уловить непрерывность движения, эволюцию событий или согласованность редактирования во времени. Мы представляем задачу ViDiC (Video Difference Captioning) и соответствующий ей набор данных ViDiC-1K, предназначенные для оценки способности мультимодальных больших языковых моделей (MLLM) давать детализированные описания сходств и различий между парами видео. ViDiC-1K включает 1000 отобранных пар видео с аннотациями, содержащими более 4000 пунктов сравнительного чек-листа, охватывающих семь категорий: объект, стиль, фон, кинематография, движение, местоположение и техника воспроизведения. Для обеспечения достоверной оценки мы предлагаем двойную чек-лист систему, которая измеряет точность определения сходств и различий раздельно на основе протокола LLM-as-a-Judge. Эксперименты с девятнадцатью репрезентативными мультимодальными моделями выявили значительный разрыв в их способностях к сравнительному описанию и восприятию различий. Мы надеемся, что ViDiC-1K станет сложным эталонным тестом, который заложит прочную основу для прогресса в понимании видео, осознании редактирования и сравнительном анализе в мультимодальном искусственном интеллекте.
English
Understanding visual differences between dynamic scenes requires the comparative perception of compositional, spatial, and temporal changes--a capability that remains underexplored in existing vision-language systems. While prior work on Image Difference Captioning (IDC) has enabled models to describe semantic changes between static images, these approaches fail to capture motion continuity, event evolution, or editing consistency over time. We introduce the ViDiC (Video Difference Captioning) task and its corresponding ViDiC-1K dataset, designed to evaluate the ability of Multimodal Large Language Models (MLLMs) to provide fine-grained descriptions of similarities and differences between video pairs. ViDiC-1K comprises 1,000 curated video pairs annotated with over 4,000 comparative checklist items, covering seven categories: subject, style, background, cinematography, motion, location, and playback techniques. To ensure reliable evaluation, we propose a dual-checklist framework that measures the accuracy of similarity and difference separately, based on the LLM-as-a-Judge protocol. Experiments on nineteen representative multimodal models reveal a significant performance gap in their comparative description and difference perception abilities. We hope ViDiC-1K can be a challenging benchmark that lays a solid foundation for advancing video understanding, edit awareness, and comparative reasoning in multimodal intelligence.
PDF231December 5, 2025