ETVA : Évaluation de l'alignement texte-vidéo via la génération et la réponse à des questions fines
ETVA: Evaluation of Text-to-Video Alignment via Fine-grained Question Generation and Answering
March 21, 2025
Auteurs: Kaisi Guan, Zhengfeng Lai, Yuchong Sun, Peng Zhang, Wei Liu, Kieran Liu, Meng Cao, Ruihua Song
cs.AI
Résumé
L'évaluation précise de l'alignement sémantique entre les invites textuelles et les vidéos générées reste un défi dans la génération texte-vidéo (T2V). Les métriques existantes d'alignement texte-vidéo, comme CLIPScore, ne produisent que des scores grossiers sans détails d'alignement fins, ne correspondant pas aux préférences humaines. Pour pallier cette limitation, nous proposons ETVA, une nouvelle méthode d'évaluation de l'alignement texte-vidéo via la génération et la réponse à des questions fines. D'abord, un système multi-agents analyse les invites en graphes de scènes sémantiques pour générer des questions atomiques. Ensuite, nous concevons un cadre de raisonnement multi-étapes enrichi par des connaissances pour répondre aux questions, où un LLM auxiliaire récupère d'abord des connaissances de bon sens pertinentes (par exemple, les lois physiques), puis un LLM vidéo répond aux questions générées via un mécanisme de raisonnement multi-étapes. Des expériences approfondies montrent qu'ETVA atteint un coefficient de corrélation de Spearman de 58,47, indiquant une corrélation bien plus élevée avec le jugement humain que les métriques existantes qui n'atteignent que 31,0. Nous construisons également un benchmark complet spécifiquement conçu pour l'évaluation de l'alignement texte-vidéo, comprenant 2 000 invites diverses et 12 000 questions atomiques couvrant 10 catégories. À travers une évaluation systématique de 15 modèles texte-vidéo existants, nous identifions leurs principales capacités et limites, ouvrant la voie à la prochaine génération de génération T2V.
English
Precisely evaluating semantic alignment between text prompts and generated
videos remains a challenge in Text-to-Video (T2V) Generation. Existing
text-to-video alignment metrics like CLIPScore only generate coarse-grained
scores without fine-grained alignment details, failing to align with human
preference. To address this limitation, we propose ETVA, a novel Evaluation
method of Text-to-Video Alignment via fine-grained question generation and
answering. First, a multi-agent system parses prompts into semantic scene
graphs to generate atomic questions. Then we design a knowledge-augmented
multi-stage reasoning framework for question answering, where an auxiliary LLM
first retrieves relevant common-sense knowledge (e.g., physical laws), and then
video LLM answers the generated questions through a multi-stage reasoning
mechanism. Extensive experiments demonstrate that ETVA achieves a Spearman's
correlation coefficient of 58.47, showing a much higher correlation with human
judgment than existing metrics which attain only 31.0. We also construct a
comprehensive benchmark specifically designed for text-to-video alignment
evaluation, featuring 2k diverse prompts and 12k atomic questions spanning 10
categories. Through a systematic evaluation of 15 existing text-to-video
models, we identify their key capabilities and limitations, paving the way for
next-generation T2V generation.Summary
AI-Generated Summary