Repenser le protocole d'évaluation humaine pour les modèles texte-vidéo : Améliorer la fiabilité, la reproductibilité et la praticité
Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality
June 13, 2024
Auteurs: Tianle Zhang, Langtian Ma, Yuchen Yan, Yuchen Zhang, Kai Wang, Yue Yang, Ziyao Guo, Wenqi Shao, Yang You, Yu Qiao, Ping Luo, Kaipeng Zhang
cs.AI
Résumé
Les récentes avancées dans la technologie de génération de vidéo à partir de texte (Text-to-Video, T2V), illustrées par des modèles tels que Gen2, Pika et Sora, ont considérablement élargi leur applicabilité et leur popularité. Malgré ces progrès, l'évaluation de ces modèles présente des défis substantiels. Principalement, en raison des limites inhérentes aux métriques automatiques, l'évaluation manuelle est souvent considérée comme une méthode supérieure pour évaluer la génération T2V. Cependant, les protocoles d'évaluation manuelle existants rencontrent des problèmes de reproductibilité, de fiabilité et de praticabilité. Pour relever ces défis, cet article introduit le protocole d'évaluation humaine Text-to-Video (T2VHE), un protocole complet et standardisé pour les modèles T2V. Le protocole T2VHE inclut des métriques bien définies, une formation approfondie des annotateurs et un module d'évaluation dynamique efficace. Les résultats expérimentaux démontrent que ce protocole non seulement garantit des annotations de haute qualité, mais peut également réduire les coûts d'évaluation de près de 50 %. Nous rendrons open-source l'ensemble de la configuration du protocole T2VHE, y compris le flux de travail complet du protocole, les détails du composant d'évaluation dynamique et le code de l'interface d'annotation. Cela aidera les communautés à établir des protocoles d'évaluation humaine plus sophistiqués.
English
Recent text-to-video (T2V) technology advancements, as demonstrated by models
such as Gen2, Pika, and Sora, have significantly broadened its applicability
and popularity. Despite these strides, evaluating these models poses
substantial challenges. Primarily, due to the limitations inherent in automatic
metrics, manual evaluation is often considered a superior method for assessing
T2V generation. However, existing manual evaluation protocols face
reproducibility, reliability, and practicality issues. To address these
challenges, this paper introduces the Text-to-Video Human Evaluation (T2VHE)
protocol, a comprehensive and standardized protocol for T2V models. The T2VHE
protocol includes well-defined metrics, thorough annotator training, and an
effective dynamic evaluation module. Experimental results demonstrate that this
protocol not only ensures high-quality annotations but can also reduce
evaluation costs by nearly 50%. We will open-source the entire setup of the
T2VHE protocol, including the complete protocol workflow, the dynamic
evaluation component details, and the annotation interface code. This will help
communities establish more sophisticated human assessment protocols.Summary
AI-Generated Summary