ChatPaper.aiChatPaper

ETVA: Оценка согласованности текста и видео через генерацию и ответы на детализированные вопросы

ETVA: Evaluation of Text-to-Video Alignment via Fine-grained Question Generation and Answering

March 21, 2025
Авторы: Kaisi Guan, Zhengfeng Lai, Yuchong Sun, Peng Zhang, Wei Liu, Kieran Liu, Meng Cao, Ruihua Song
cs.AI

Аннотация

Точная оценка семантического соответствия между текстовыми запросами и сгенерированными видео остается сложной задачей в области генерации видео по тексту (Text-to-Video, T2V). Существующие метрики оценки соответствия текста и видео, такие как CLIPScore, предоставляют лишь грубые оценки без детализированной информации о соответствии, что не согласуется с человеческими предпочтениями. Для устранения этого ограничения мы предлагаем ETVA — новый метод оценки соответствия текста и видео через генерацию и ответы на детализированные вопросы. Сначала многоагентная система анализирует запросы, преобразуя их в семантические графы сцен, чтобы генерировать атомарные вопросы. Затем мы разрабатываем многоступенчатую систему рассуждений, дополненную знаниями, для ответов на вопросы, где вспомогательная языковая модель (LLM) сначала извлекает релевантные общеизвестные знания (например, физические законы), а затем видео-LLM отвечает на сгенерированные вопросы с помощью многоступенчатого механизма рассуждений. Многочисленные эксперименты показывают, что ETVA достигает коэффициента корреляции Спирмена 58.47, что значительно выше корреляции с человеческими суждениями по сравнению с существующими метриками, которые достигают лишь 31.0. Мы также создаем комплексный бенчмарк, специально разработанный для оценки соответствия текста и видео, включающий 2k разнообразных запросов и 12k атомарных вопросов, охватывающих 10 категорий. Систематическая оценка 15 существующих моделей генерации видео по тексту позволяет выявить их ключевые возможности и ограничения, прокладывая путь для следующего поколения T2V-генерации.
English
Precisely evaluating semantic alignment between text prompts and generated videos remains a challenge in Text-to-Video (T2V) Generation. Existing text-to-video alignment metrics like CLIPScore only generate coarse-grained scores without fine-grained alignment details, failing to align with human preference. To address this limitation, we propose ETVA, a novel Evaluation method of Text-to-Video Alignment via fine-grained question generation and answering. First, a multi-agent system parses prompts into semantic scene graphs to generate atomic questions. Then we design a knowledge-augmented multi-stage reasoning framework for question answering, where an auxiliary LLM first retrieves relevant common-sense knowledge (e.g., physical laws), and then video LLM answers the generated questions through a multi-stage reasoning mechanism. Extensive experiments demonstrate that ETVA achieves a Spearman's correlation coefficient of 58.47, showing a much higher correlation with human judgment than existing metrics which attain only 31.0. We also construct a comprehensive benchmark specifically designed for text-to-video alignment evaluation, featuring 2k diverse prompts and 12k atomic questions spanning 10 categories. Through a systematic evaluation of 15 existing text-to-video models, we identify their key capabilities and limitations, paving the way for next-generation T2V generation.

Summary

AI-Generated Summary

PDF112March 24, 2025