Ripensare il protocollo di valutazione umana per i modelli di generazione video da testo: migliorare affidabilità, riproducibilità e praticità
Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality
June 13, 2024
Autori: Tianle Zhang, Langtian Ma, Yuchen Yan, Yuchen Zhang, Kai Wang, Yue Yang, Ziyao Guo, Wenqi Shao, Yang You, Yu Qiao, Ping Luo, Kaipeng Zhang
cs.AI
Abstract
I recenti progressi nella tecnologia di generazione video da testo (Text-to-Video, T2V), dimostrati da modelli come Gen2, Pika e Sora, hanno ampliato significativamente la loro applicabilità e popolarità. Nonostante questi passi avanti, la valutazione di questi modelli presenta sfide sostanziali. Principalmente, a causa delle limitazioni intrinseche delle metriche automatiche, la valutazione manuale è spesso considerata un metodo superiore per valutare la generazione T2V. Tuttavia, i protocolli di valutazione manuale esistenti affrontano problemi di riproducibilità, affidabilità e praticità. Per affrontare queste sfide, questo articolo introduce il protocollo di valutazione umana per la generazione video da testo (Text-to-Video Human Evaluation, T2VHE), un protocollo completo e standardizzato per i modelli T2V. Il protocollo T2VHE include metriche ben definite, una formazione approfondita degli annotatori e un modulo di valutazione dinamica efficace. I risultati sperimentali dimostrano che questo protocollo non solo garantisce annotazioni di alta qualità, ma può anche ridurre i costi di valutazione di quasi il 50%. Renderemo open-source l'intera configurazione del protocollo T2VHE, inclusi il flusso di lavoro completo del protocollo, i dettagli del componente di valutazione dinamica e il codice dell'interfaccia di annotazione. Questo aiuterà le comunità a stabilire protocolli di valutazione umana più sofisticati.
English
Recent text-to-video (T2V) technology advancements, as demonstrated by models
such as Gen2, Pika, and Sora, have significantly broadened its applicability
and popularity. Despite these strides, evaluating these models poses
substantial challenges. Primarily, due to the limitations inherent in automatic
metrics, manual evaluation is often considered a superior method for assessing
T2V generation. However, existing manual evaluation protocols face
reproducibility, reliability, and practicality issues. To address these
challenges, this paper introduces the Text-to-Video Human Evaluation (T2VHE)
protocol, a comprehensive and standardized protocol for T2V models. The T2VHE
protocol includes well-defined metrics, thorough annotator training, and an
effective dynamic evaluation module. Experimental results demonstrate that this
protocol not only ensures high-quality annotations but can also reduce
evaluation costs by nearly 50%. We will open-source the entire setup of the
T2VHE protocol, including the complete protocol workflow, the dynamic
evaluation component details, and the annotation interface code. This will help
communities establish more sophisticated human assessment protocols.