ChatPaper.aiChatPaper

TC-Bench: Оценка временной составности в генерации текста в видео и изображения в видео.

TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation

June 12, 2024
Авторы: Weixi Feng, Jiachen Li, Michael Saxon, Tsu-jui Fu, Wenhu Chen, William Yang Wang
cs.AI

Аннотация

Генерация видео представляет собой множество уникальных вызовов, выходящих за рамки генерации изображений. Временное измерение вносит значительные возможные изменения между кадрами, нарушая при этом согласованность и непрерывность. В данном исследовании мы переходим от оценки простых действий и утверждаем, что сгенерированные видео должны включать появление новых концепций и переходы между ними, как в реальных видео по мере их развития. Для оценки временной композициональности моделей генерации видео мы предлагаем TC-Bench, набор тщательно разработанных текстовых подсказок, соответствующих эталонным видео, и надежных метрик оценки. Подсказки формулируют начальное и конечное состояния сцен, эффективно уменьшая неоднозначности для развития кадра и упрощая оценку завершения перехода. Кроме того, собрав соответствующие подсказкам реальные видео, мы расширяем применимость TC-Bench от моделей, зависящих от текста, к моделям, зависящим от изображений, способным выполнять генеративную интерполяцию кадров. Мы также разрабатываем новые метрики для измерения полноты компонентных переходов в сгенерированных видео, которые демонстрируют значительно более высокие корреляции с оценками людей, чем существующие метрики. Наши всесторонние экспериментальные результаты показывают, что большинство видеогенераторов достигают менее 20% композиционных изменений, выделяя огромное пространство для будущего улучшения. Наш анализ указывает на то, что текущие модели генерации видео испытывают трудности с интерпретацией описаний композиционных изменений и синтезом различных компонентов на разных временных шагах.
English
Video generation has many unique challenges beyond those of image generation. The temporal dimension introduces extensive possible variations across frames, over which consistency and continuity may be violated. In this study, we move beyond evaluating simple actions and argue that generated videos should incorporate the emergence of new concepts and their relation transitions like in real-world videos as time progresses. To assess the Temporal Compositionality of video generation models, we propose TC-Bench, a benchmark of meticulously crafted text prompts, corresponding ground truth videos, and robust evaluation metrics. The prompts articulate the initial and final states of scenes, effectively reducing ambiguities for frame development and simplifying the assessment of transition completion. In addition, by collecting aligned real-world videos corresponding to the prompts, we expand TC-Bench's applicability from text-conditional models to image-conditional ones that can perform generative frame interpolation. We also develop new metrics to measure the completeness of component transitions in generated videos, which demonstrate significantly higher correlations with human judgments than existing metrics. Our comprehensive experimental results reveal that most video generators achieve less than 20% of the compositional changes, highlighting enormous space for future improvement. Our analysis indicates that current video generation models struggle to interpret descriptions of compositional changes and synthesize various components across different time steps.

Summary

AI-Generated Summary

PDF81December 6, 2024