К созданию более совершенной метрики для генерации видео из текста
Towards A Better Metric for Text-to-Video Generation
January 15, 2024
Авторы: Jay Zhangjie Wu, Guian Fang, Haoning Wu, Xintao Wang, Yixiao Ge, Xiaodong Cun, David Junhao Zhang, Jia-Wei Liu, Yuchao Gu, Rui Zhao, Weisi Lin, Wynne Hsu, Ying Shan, Mike Zheng Shou
cs.AI
Аннотация
Генеративные модели продемонстрировали впечатляющие способности в синтезе высококачественного текста, изображений и видео. В области генерации видео современные модели, преобразующие текст в видео, показывают впечатляющие результаты, создавая визуально эффектные ролики. Однако оценка таких видео представляет значительные сложности. Современные исследования в основном используют автоматизированные метрики, такие как FVD, IS и CLIP Score. Тем не менее, эти метрики предоставляют неполный анализ, особенно в отношении временной оценки видеоконтента, что делает их ненадежными индикаторами истинного качества видео. Кроме того, хотя пользовательские исследования потенциально могут точно отражать человеческое восприятие, они ограничены своей трудоемкостью и временными затратами, а их результаты часто искажены субъективными предубеждениями. В данной статье мы исследуем ограничения существующих метрик и представляем новый подход к оценке — Text-to-Video Score (T2VScore). Эта метрика объединяет два ключевых критерия: (1) Соответствие текста и видео, которое анализирует точность представления видео в соответствии с заданным текстовым описанием, и (2) Качество видео, которое оценивает общий уровень производства видео с привлечением экспертов. Кроме того, для оценки предложенных метрик и содействия их дальнейшему улучшению мы представляем набор данных TVGE, содержащий человеческие оценки 2 543 видео, сгенерированных из текста, по двум указанным критериям. Эксперименты на наборе данных TVGE демонстрируют превосходство предложенной метрики T2VScore в качестве более точного инструмента для оценки генерации видео из текста.
English
Generative models have demonstrated remarkable capability in synthesizing
high-quality text, images, and videos. For video generation, contemporary
text-to-video models exhibit impressive capabilities, crafting visually
stunning videos. Nonetheless, evaluating such videos poses significant
challenges. Current research predominantly employs automated metrics such as
FVD, IS, and CLIP Score. However, these metrics provide an incomplete analysis,
particularly in the temporal assessment of video content, thus rendering them
unreliable indicators of true video quality. Furthermore, while user studies
have the potential to reflect human perception accurately, they are hampered by
their time-intensive and laborious nature, with outcomes that are often tainted
by subjective bias. In this paper, we investigate the limitations inherent in
existing metrics and introduce a novel evaluation pipeline, the Text-to-Video
Score (T2VScore). This metric integrates two pivotal criteria: (1) Text-Video
Alignment, which scrutinizes the fidelity of the video in representing the
given text description, and (2) Video Quality, which evaluates the video's
overall production caliber with a mixture of experts. Moreover, to evaluate the
proposed metrics and facilitate future improvements on them, we present the
TVGE dataset, collecting human judgements of 2,543 text-to-video generated
videos on the two criteria. Experiments on the TVGE dataset demonstrate the
superiority of the proposed T2VScore on offering a better metric for
text-to-video generation.