ChatPaper.aiChatPaper

ETVA: 세밀한 질문 생성 및 답변을 통한 텍스트-비디오 정렬 평가

ETVA: Evaluation of Text-to-Video Alignment via Fine-grained Question Generation and Answering

March 21, 2025
저자: Kaisi Guan, Zhengfeng Lai, Yuchong Sun, Peng Zhang, Wei Liu, Kieran Liu, Meng Cao, Ruihua Song
cs.AI

초록

텍스트 프롬프트와 생성된 비디오 간의 의미론적 정렬을 정확하게 평가하는 것은 텍스트-투-비디오(T2V) 생성 분야에서 여전히 어려운 과제로 남아 있습니다. 기존의 텍스트-투-비디오 정렬 메트릭(예: CLIPScore)은 세밀한 정렬 정보 없이 대략적인 점수만 생성하며, 인간의 선호도와 일치하지 못합니다. 이러한 한계를 해결하기 위해, 우리는 세밀한 질문 생성 및 답변을 통한 텍스트-투-비디오 정렬 평가 방법인 ETVA를 제안합니다. 먼저, 다중 에이전트 시스템이 프롬프트를 의미론적 장면 그래프로 파싱하여 원자적 질문을 생성합니다. 그런 다음, 보조 LLM이 물리 법칙과 같은 관련 상식 지식을 먼저 검색하고, 비디오 LLM이 다단계 추론 메커니즘을 통해 생성된 질문에 답변하는 지식-증강 다단계 추론 프레임워크를 설계합니다. 광범위한 실험을 통해 ETVA는 스피어만 상관 계수 58.47을 달성하여, 기존 메트릭의 31.0에 비해 인간 판단과 훨씬 더 높은 상관 관계를 보여줍니다. 또한, 우리는 텍스트-투-비디오 정렬 평가를 위해 특별히 설계된 포괄적인 벤치마크를 구축했으며, 10개 카테고리에 걸친 2,000개의 다양한 프롬프트와 12,000개의 원자적 질문을 포함합니다. 15개의 기존 텍스트-투-비디오 모델에 대한 체계적인 평가를 통해, 우리는 이들의 주요 능력과 한계를 식별함으로써 차세대 T2V 생성의 길을 열었습니다.
English
Precisely evaluating semantic alignment between text prompts and generated videos remains a challenge in Text-to-Video (T2V) Generation. Existing text-to-video alignment metrics like CLIPScore only generate coarse-grained scores without fine-grained alignment details, failing to align with human preference. To address this limitation, we propose ETVA, a novel Evaluation method of Text-to-Video Alignment via fine-grained question generation and answering. First, a multi-agent system parses prompts into semantic scene graphs to generate atomic questions. Then we design a knowledge-augmented multi-stage reasoning framework for question answering, where an auxiliary LLM first retrieves relevant common-sense knowledge (e.g., physical laws), and then video LLM answers the generated questions through a multi-stage reasoning mechanism. Extensive experiments demonstrate that ETVA achieves a Spearman's correlation coefficient of 58.47, showing a much higher correlation with human judgment than existing metrics which attain only 31.0. We also construct a comprehensive benchmark specifically designed for text-to-video alignment evaluation, featuring 2k diverse prompts and 12k atomic questions spanning 10 categories. Through a systematic evaluation of 15 existing text-to-video models, we identify their key capabilities and limitations, paving the way for next-generation T2V generation.

Summary

AI-Generated Summary

PDF112March 24, 2025