ETVA: Avaliação do Alinhamento Texto-Vídeo por meio de Geração e Resposta de Perguntas de Alto Nível de Detalhe

Resumo

A avaliação precisa do alinhamento semântico entre prompts de texto e vídeos gerados continua sendo um desafio na Geração de Texto para Vídeo (T2V). Métricas existentes de alinhamento texto-vídeo, como o CLIPScore, geram apenas pontuações de granularidade grossa, sem detalhes de alinhamento refinado, falhando em se alinhar com a preferência humana. Para superar essa limitação, propomos o ETVA, um novo Método de Avaliação de Alinhamento Texto-Vídeo por meio da geração e resposta de perguntas refinadas. Primeiro, um sistema multiagente analisa os prompts em grafos de cena semânticos para gerar perguntas atômicas. Em seguida, projetamos uma estrutura de raciocínio multiestágio aumentada por conhecimento para responder às perguntas, onde um LLM auxiliar primeiro recupera conhecimentos de senso comum relevantes (por exemplo, leis físicas), e então o LLM de vídeo responde às perguntas geradas por meio de um mecanismo de raciocínio multiestágio. Experimentos extensivos demonstram que o ETVA alcança um coeficiente de correlação de Spearman de 58,47, mostrando uma correlação muito maior com o julgamento humano do que as métricas existentes, que atingem apenas 31,0. Também construímos um benchmark abrangente especificamente projetado para avaliação de alinhamento texto-vídeo, contendo 2 mil prompts diversos e 12 mil perguntas atômicas abrangendo 10 categorias. Por meio de uma avaliação sistemática de 15 modelos existentes de texto para vídeo, identificamos suas principais capacidades e limitações, pavimentando o caminho para a próxima geração de geração T2V.

English

Precisely evaluating semantic alignment between text prompts and generated videos remains a challenge in Text-to-Video (T2V) Generation. Existing text-to-video alignment metrics like CLIPScore only generate coarse-grained scores without fine-grained alignment details, failing to align with human preference. To address this limitation, we propose ETVA, a novel Evaluation method of Text-to-Video Alignment via fine-grained question generation and answering. First, a multi-agent system parses prompts into semantic scene graphs to generate atomic questions. Then we design a knowledge-augmented multi-stage reasoning framework for question answering, where an auxiliary LLM first retrieves relevant common-sense knowledge (e.g., physical laws), and then video LLM answers the generated questions through a multi-stage reasoning mechanism. Extensive experiments demonstrate that ETVA achieves a Spearman's correlation coefficient of 58.47, showing a much higher correlation with human judgment than existing metrics which attain only 31.0. We also construct a comprehensive benchmark specifically designed for text-to-video alignment evaluation, featuring 2k diverse prompts and 12k atomic questions spanning 10 categories. Through a systematic evaluation of 15 existing text-to-video models, we identify their key capabilities and limitations, paving the way for next-generation T2V generation.

ETVA: Avaliação do Alinhamento Texto-Vídeo por meio de Geração e Resposta de Perguntas de Alto Nível de Detalhe

ETVA: Evaluation of Text-to-Video Alignment via Fine-grained Question Generation and Answering

Resumo

Support