Переосмысление протокола оценки человека для моделей текст-видео: повышение надежности, воспроизводимости и практичности.
Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality
June 13, 2024
Авторы: Tianle Zhang, Langtian Ma, Yuchen Yan, Yuchen Zhang, Kai Wang, Yue Yang, Ziyao Guo, Wenqi Shao, Yang You, Yu Qiao, Ping Luo, Kaipeng Zhang
cs.AI
Аннотация
Недавние достижения в технологии текст-видео (T2V), продемонстрированные моделями, такими как Gen2, Pika и Sora, значительно расширили ее применимость и популярность. Несмотря на эти успехи, оценка этих моделей представляет существенные трудности. Прежде всего, из-за ограничений, присущих автоматическим метрикам, ручная оценка часто считается более предпочтительным методом оценки генерации T2V. Однако существующие протоколы ручной оценки сталкиваются с проблемами воспроизводимости, надежности и практичности. Для решения этих проблем в данной статье представлен протокол Человеческой Оценки Текста-в-Видео (T2VHE), обширный и стандартизированный протокол для моделей T2V. Протокол T2VHE включает четко определенные метрики, тщательное обучение аннотаторов и эффективный динамический модуль оценки. Экспериментальные результаты показывают, что этот протокол не только обеспечивает аннотации высокого качества, но также может сократить затраты на оценку почти на 50%. Мы опубликуем в открытый доступ всю настройку протокола T2VHE, включая полный рабочий процесс протокола, детали динамического модуля оценки и код интерфейса аннотации. Это поможет сообществам создавать более сложные протоколы человеческой оценки.
English
Recent text-to-video (T2V) technology advancements, as demonstrated by models
such as Gen2, Pika, and Sora, have significantly broadened its applicability
and popularity. Despite these strides, evaluating these models poses
substantial challenges. Primarily, due to the limitations inherent in automatic
metrics, manual evaluation is often considered a superior method for assessing
T2V generation. However, existing manual evaluation protocols face
reproducibility, reliability, and practicality issues. To address these
challenges, this paper introduces the Text-to-Video Human Evaluation (T2VHE)
protocol, a comprehensive and standardized protocol for T2V models. The T2VHE
protocol includes well-defined metrics, thorough annotator training, and an
effective dynamic evaluation module. Experimental results demonstrate that this
protocol not only ensures high-quality annotations but can also reduce
evaluation costs by nearly 50%. We will open-source the entire setup of the
T2VHE protocol, including the complete protocol workflow, the dynamic
evaluation component details, and the annotation interface code. This will help
communities establish more sophisticated human assessment protocols.Summary
AI-Generated Summary