ChatPaper.aiChatPaper

ETVA: Evaluación de Alineación Texto-Video mediante Generación y Respuesta de Preguntas de Granularidad Fina

ETVA: Evaluation of Text-to-Video Alignment via Fine-grained Question Generation and Answering

March 21, 2025
Autores: Kaisi Guan, Zhengfeng Lai, Yuchong Sun, Peng Zhang, Wei Liu, Kieran Liu, Meng Cao, Ruihua Song
cs.AI

Resumen

Evaluar con precisión la alineación semántica entre los textos de entrada y los videos generados sigue siendo un desafío en la Generación de Texto a Video (T2V). Las métricas existentes de alineación texto-video, como CLIPScore, solo generan puntuaciones de grano grueso sin detalles de alineación fina, lo que no se alinea con las preferencias humanas. Para abordar esta limitación, proponemos ETVA, un método novedoso de Evaluación de Alineación Texto-Video mediante la generación y respuesta de preguntas de grano fino. Primero, un sistema multiagente analiza los textos de entrada en grafos de escenas semánticas para generar preguntas atómicas. Luego, diseñamos un marco de razonamiento multietapa aumentado con conocimiento para responder preguntas, donde un LLM auxiliar primero recupera conocimiento de sentido común relevante (por ejemplo, leyes físicas), y luego un LLM de video responde las preguntas generadas a través de un mecanismo de razonamiento multietapa. Experimentos extensos demuestran que ETVA alcanza un coeficiente de correlación de Spearman de 58.47, mostrando una correlación mucho mayor con el juicio humano que las métricas existentes, que alcanzan solo 31.0. También construimos un benchmark integral diseñado específicamente para la evaluación de alineación texto-video, que incluye 2k textos de entrada diversos y 12k preguntas atómicas que abarcan 10 categorías. A través de una evaluación sistemática de 15 modelos existentes de texto a video, identificamos sus capacidades y limitaciones clave, allanando el camino para la próxima generación de generación T2V.
English
Precisely evaluating semantic alignment between text prompts and generated videos remains a challenge in Text-to-Video (T2V) Generation. Existing text-to-video alignment metrics like CLIPScore only generate coarse-grained scores without fine-grained alignment details, failing to align with human preference. To address this limitation, we propose ETVA, a novel Evaluation method of Text-to-Video Alignment via fine-grained question generation and answering. First, a multi-agent system parses prompts into semantic scene graphs to generate atomic questions. Then we design a knowledge-augmented multi-stage reasoning framework for question answering, where an auxiliary LLM first retrieves relevant common-sense knowledge (e.g., physical laws), and then video LLM answers the generated questions through a multi-stage reasoning mechanism. Extensive experiments demonstrate that ETVA achieves a Spearman's correlation coefficient of 58.47, showing a much higher correlation with human judgment than existing metrics which attain only 31.0. We also construct a comprehensive benchmark specifically designed for text-to-video alignment evaluation, featuring 2k diverse prompts and 12k atomic questions spanning 10 categories. Through a systematic evaluation of 15 existing text-to-video models, we identify their key capabilities and limitations, paving the way for next-generation T2V generation.

Summary

AI-Generated Summary

PDF112March 24, 2025