ViDiC: Legendagem de Diferenças em Vídeo

Resumo

Compreender as diferenças visuais entre cenas dinâmicas requer a percepção comparativa de alterações composicionais, espaciais e temporais – uma capacidade que permanece pouco explorada nos sistemas existentes de visão e linguagem. Embora trabalhos anteriores sobre Descrição de Diferenças em Imagens (IDC) tenham permitido que modelos descrevam mudanças semânticas entre imagens estáticas, essas abordagens não conseguem capturar a continuidade do movimento, a evolução de eventos ou a consistência de edição ao longo do tempo. Apresentamos a tarefa ViDiC (Descrição de Diferenças em Vídeo) e seu conjunto de dados correspondente, ViDiC-1K, projetado para avaliar a capacidade dos Modelos de Linguagem Multimodal de Grande Escala (MLLMs) de fornecer descrições refinadas de similaridades e diferenças entre pares de vídeos. O ViDiC-1K compreende 1.000 pares de vídeos selecionados e anotados com mais de 4.000 itens de lista de verificação comparativa, abrangendo sete categorias: sujeito, estilo, plano de fundo, cinematografia, movimento, localização e técnicas de reprodução. Para garantir uma avaliação confiável, propomos uma estrutura de lista de verificação dupla que mede a precisão de similaridade e diferença separadamente, com base no protocolo LLM-como-Juiz. Experimentos em dezenove modelos multimodais representativos revelam uma lacuna significativa de desempenho em suas habilidades de descrição comparativa e percepção de diferenças. Esperamos que o ViDiC-1K possa ser um benchmark desafiador que estabeleça uma base sólida para o avanço da compreensão de vídeo, consciência de edição e raciocínio comparativo na inteligência multimodal.

English

Understanding visual differences between dynamic scenes requires the comparative perception of compositional, spatial, and temporal changes--a capability that remains underexplored in existing vision-language systems. While prior work on Image Difference Captioning (IDC) has enabled models to describe semantic changes between static images, these approaches fail to capture motion continuity, event evolution, or editing consistency over time. We introduce the ViDiC (Video Difference Captioning) task and its corresponding ViDiC-1K dataset, designed to evaluate the ability of Multimodal Large Language Models (MLLMs) to provide fine-grained descriptions of similarities and differences between video pairs. ViDiC-1K comprises 1,000 curated video pairs annotated with over 4,000 comparative checklist items, covering seven categories: subject, style, background, cinematography, motion, location, and playback techniques. To ensure reliable evaluation, we propose a dual-checklist framework that measures the accuracy of similarity and difference separately, based on the LLM-as-a-Judge protocol. Experiments on nineteen representative multimodal models reveal a significant performance gap in their comparative description and difference perception abilities. We hope ViDiC-1K can be a challenging benchmark that lays a solid foundation for advancing video understanding, edit awareness, and comparative reasoning in multimodal intelligence.