ChatPaper.aiChatPaper

Replanteamiento del Protocolo de Evaluación Humana para Modelos de Texto a Video: Mejorando la Fiabilidad, Reproducibilidad y Practicidad

Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality

June 13, 2024
Autores: Tianle Zhang, Langtian Ma, Yuchen Yan, Yuchen Zhang, Kai Wang, Yue Yang, Ziyao Guo, Wenqi Shao, Yang You, Yu Qiao, Ping Luo, Kaipeng Zhang
cs.AI

Resumen

Los recientes avances en la tecnología de texto a video (T2V), demostrados por modelos como Gen2, Pika y Sora, han ampliado significativamente su aplicabilidad y popularidad. A pesar de estos progresos, evaluar estos modelos presenta desafíos considerables. Principalmente, debido a las limitaciones inherentes de las métricas automáticas, la evaluación manual suele considerarse un método superior para valorar la generación T2V. Sin embargo, los protocolos de evaluación manual existentes enfrentan problemas de reproducibilidad, fiabilidad y practicidad. Para abordar estos desafíos, este artículo presenta el protocolo de Evaluación Humana de Texto a Video (T2VHE), un protocolo estandarizado y completo para modelos T2V. El protocolo T2VHE incluye métricas bien definidas, un entrenamiento exhaustivo de los anotadores y un módulo de evaluación dinámica efectivo. Los resultados experimentales demuestran que este protocolo no solo garantiza anotaciones de alta calidad, sino que también puede reducir los costos de evaluación en casi un 50%. Liberaremos el código fuente completo del protocolo T2VHE, incluyendo el flujo de trabajo completo del protocolo, los detalles del componente de evaluación dinámica y el código de la interfaz de anotación. Esto ayudará a las comunidades a establecer protocolos de evaluación humana más sofisticados.
English
Recent text-to-video (T2V) technology advancements, as demonstrated by models such as Gen2, Pika, and Sora, have significantly broadened its applicability and popularity. Despite these strides, evaluating these models poses substantial challenges. Primarily, due to the limitations inherent in automatic metrics, manual evaluation is often considered a superior method for assessing T2V generation. However, existing manual evaluation protocols face reproducibility, reliability, and practicality issues. To address these challenges, this paper introduces the Text-to-Video Human Evaluation (T2VHE) protocol, a comprehensive and standardized protocol for T2V models. The T2VHE protocol includes well-defined metrics, thorough annotator training, and an effective dynamic evaluation module. Experimental results demonstrate that this protocol not only ensures high-quality annotations but can also reduce evaluation costs by nearly 50%. We will open-source the entire setup of the T2VHE protocol, including the complete protocol workflow, the dynamic evaluation component details, and the annotation interface code. This will help communities establish more sophisticated human assessment protocols.

Summary

AI-Generated Summary

PDF91December 6, 2024