ETVA: Valutazione dell'Allineamento Testo-Video tramite Generazione e Risposta di Domande a Grana Fine
ETVA: Evaluation of Text-to-Video Alignment via Fine-grained Question Generation and Answering
March 21, 2025
Autori: Kaisi Guan, Zhengfeng Lai, Yuchong Sun, Peng Zhang, Wei Liu, Kieran Liu, Meng Cao, Ruihua Song
cs.AI
Abstract
Valutare con precisione l'allineamento semantico tra i prompt testuali e i video generati rimane una sfida nella generazione da testo a video (Text-to-Video, T2V). Le metriche esistenti per l'allineamento testo-video, come il CLIPScore, producono solo punteggi a grana grossa senza dettagli di allineamento fine, fallendo nel rispecchiare le preferenze umane. Per affrontare questa limitazione, proponiamo ETVA, un nuovo metodo di valutazione dell'allineamento testo-video basato sulla generazione e risposta a domande a grana fine. In primo luogo, un sistema multi-agente analizza i prompt in grafi semantici della scena per generare domande atomiche. Successivamente, progettiamo un framework di ragionamento multi-stadio arricchito da conoscenza per la risposta alle domande, in cui un LLM ausiliario recupera prima conoscenze di senso comune rilevanti (ad esempio, leggi fisiche), e poi un LLM video risponde alle domande generate attraverso un meccanismo di ragionamento multi-stadio. Esperimenti estensivi dimostrano che ETVA raggiunge un coefficiente di correlazione di Spearman di 58.47, mostrando una correlazione molto più alta con il giudizio umano rispetto alle metriche esistenti che raggiungono solo 31.0. Abbiamo anche costruito un benchmark completo specificamente progettato per la valutazione dell'allineamento testo-video, caratterizzato da 2k prompt diversificati e 12k domande atomiche che coprono 10 categorie. Attraverso una valutazione sistematica di 15 modelli esistenti di generazione testo-video, abbiamo identificato le loro principali capacità e limitazioni, aprendo la strada alla prossima generazione di T2V.
English
Precisely evaluating semantic alignment between text prompts and generated
videos remains a challenge in Text-to-Video (T2V) Generation. Existing
text-to-video alignment metrics like CLIPScore only generate coarse-grained
scores without fine-grained alignment details, failing to align with human
preference. To address this limitation, we propose ETVA, a novel Evaluation
method of Text-to-Video Alignment via fine-grained question generation and
answering. First, a multi-agent system parses prompts into semantic scene
graphs to generate atomic questions. Then we design a knowledge-augmented
multi-stage reasoning framework for question answering, where an auxiliary LLM
first retrieves relevant common-sense knowledge (e.g., physical laws), and then
video LLM answers the generated questions through a multi-stage reasoning
mechanism. Extensive experiments demonstrate that ETVA achieves a Spearman's
correlation coefficient of 58.47, showing a much higher correlation with human
judgment than existing metrics which attain only 31.0. We also construct a
comprehensive benchmark specifically designed for text-to-video alignment
evaluation, featuring 2k diverse prompts and 12k atomic questions spanning 10
categories. Through a systematic evaluation of 15 existing text-to-video
models, we identify their key capabilities and limitations, paving the way for
next-generation T2V generation.