ChatPaper.aiChatPaper

ETVA: Evaluatie van Text-naar-Video Aligning via Fijnmazige Vraaggeneratie en Beantwoording

ETVA: Evaluation of Text-to-Video Alignment via Fine-grained Question Generation and Answering

March 21, 2025
Auteurs: Kaisi Guan, Zhengfeng Lai, Yuchong Sun, Peng Zhang, Wei Liu, Kieran Liu, Meng Cao, Ruihua Song
cs.AI

Samenvatting

Het nauwkeurig evalueren van semantische afstemming tussen tekstprompts en gegenereerde video's blijft een uitdaging in Text-to-Video (T2V) Generatie. Bestaande tekst-naar-video afstemmingsmetrieken zoals CLIPScore genereren alleen grofkorrelige scores zonder gedetailleerde afstemmingsinformatie, wat niet overeenkomt met menselijke voorkeuren. Om deze beperking aan te pakken, stellen we ETVA voor, een nieuwe Evaluatiemethode voor Text-to-Video Afstemming via fijnmazige vraaggeneratie en beantwoording. Eerst parseert een multi-agent systeem prompts in semantische scènegrafieken om atomische vragen te genereren. Vervolgens ontwerpen we een kennis-augmented multi-staps redeneerframework voor vraagbeantwoording, waarbij een hulp-LLM eerst relevante algemene kennis (bijv. natuurkundige wetten) ophaalt, en daarna beantwoordt de video-LLM de gegenereerde vragen via een multi-staps redeneermechanisme. Uitgebreide experimenten tonen aan dat ETVA een Spearman's correlatiecoëfficiënt van 58,47 bereikt, wat een veel hogere correlatie met menselijk oordeel laat zien dan bestaande metrieken die slechts 31,0 halen. We construeren ook een uitgebreide benchmark specifiek ontworpen voor tekst-naar-video afstemmingsevaluatie, met 2k diverse prompts en 12k atomische vragen verdeeld over 10 categorieën. Door een systematische evaluatie van 15 bestaande tekst-naar-video modellen, identificeren we hun belangrijkste capaciteiten en beperkingen, wat de weg vrijmaakt voor de volgende generatie T2V-generatie.
English
Precisely evaluating semantic alignment between text prompts and generated videos remains a challenge in Text-to-Video (T2V) Generation. Existing text-to-video alignment metrics like CLIPScore only generate coarse-grained scores without fine-grained alignment details, failing to align with human preference. To address this limitation, we propose ETVA, a novel Evaluation method of Text-to-Video Alignment via fine-grained question generation and answering. First, a multi-agent system parses prompts into semantic scene graphs to generate atomic questions. Then we design a knowledge-augmented multi-stage reasoning framework for question answering, where an auxiliary LLM first retrieves relevant common-sense knowledge (e.g., physical laws), and then video LLM answers the generated questions through a multi-stage reasoning mechanism. Extensive experiments demonstrate that ETVA achieves a Spearman's correlation coefficient of 58.47, showing a much higher correlation with human judgment than existing metrics which attain only 31.0. We also construct a comprehensive benchmark specifically designed for text-to-video alignment evaluation, featuring 2k diverse prompts and 12k atomic questions spanning 10 categories. Through a systematic evaluation of 15 existing text-to-video models, we identify their key capabilities and limitations, paving the way for next-generation T2V generation.

Summary

AI-Generated Summary

PDF112March 24, 2025