ETVA: Avaliação do Alinhamento Texto-Vídeo por meio de Geração e Resposta de Perguntas de Alto Nível de Detalhe
ETVA: Evaluation of Text-to-Video Alignment via Fine-grained Question Generation and Answering
March 21, 2025
Autores: Kaisi Guan, Zhengfeng Lai, Yuchong Sun, Peng Zhang, Wei Liu, Kieran Liu, Meng Cao, Ruihua Song
cs.AI
Resumo
A avaliação precisa do alinhamento semântico entre prompts de texto e vídeos gerados continua sendo um desafio na Geração de Texto para Vídeo (T2V). Métricas existentes de alinhamento texto-vídeo, como o CLIPScore, geram apenas pontuações de granularidade grossa, sem detalhes de alinhamento refinado, falhando em se alinhar com a preferência humana. Para superar essa limitação, propomos o ETVA, um novo Método de Avaliação de Alinhamento Texto-Vídeo por meio da geração e resposta de perguntas refinadas. Primeiro, um sistema multiagente analisa os prompts em grafos de cena semânticos para gerar perguntas atômicas. Em seguida, projetamos uma estrutura de raciocínio multiestágio aumentada por conhecimento para responder às perguntas, onde um LLM auxiliar primeiro recupera conhecimentos de senso comum relevantes (por exemplo, leis físicas), e então o LLM de vídeo responde às perguntas geradas por meio de um mecanismo de raciocínio multiestágio. Experimentos extensivos demonstram que o ETVA alcança um coeficiente de correlação de Spearman de 58,47, mostrando uma correlação muito maior com o julgamento humano do que as métricas existentes, que atingem apenas 31,0. Também construímos um benchmark abrangente especificamente projetado para avaliação de alinhamento texto-vídeo, contendo 2 mil prompts diversos e 12 mil perguntas atômicas abrangendo 10 categorias. Por meio de uma avaliação sistemática de 15 modelos existentes de texto para vídeo, identificamos suas principais capacidades e limitações, pavimentando o caminho para a próxima geração de geração T2V.
English
Precisely evaluating semantic alignment between text prompts and generated
videos remains a challenge in Text-to-Video (T2V) Generation. Existing
text-to-video alignment metrics like CLIPScore only generate coarse-grained
scores without fine-grained alignment details, failing to align with human
preference. To address this limitation, we propose ETVA, a novel Evaluation
method of Text-to-Video Alignment via fine-grained question generation and
answering. First, a multi-agent system parses prompts into semantic scene
graphs to generate atomic questions. Then we design a knowledge-augmented
multi-stage reasoning framework for question answering, where an auxiliary LLM
first retrieves relevant common-sense knowledge (e.g., physical laws), and then
video LLM answers the generated questions through a multi-stage reasoning
mechanism. Extensive experiments demonstrate that ETVA achieves a Spearman's
correlation coefficient of 58.47, showing a much higher correlation with human
judgment than existing metrics which attain only 31.0. We also construct a
comprehensive benchmark specifically designed for text-to-video alignment
evaluation, featuring 2k diverse prompts and 12k atomic questions spanning 10
categories. Through a systematic evaluation of 15 existing text-to-video
models, we identify their key capabilities and limitations, paving the way for
next-generation T2V generation.Summary
AI-Generated Summary