Repensando o Protocolo de Avaliação Humana para Modelos de Texto para Vídeo: Aprimorando Confiabilidade, Reprodutibilidade e Praticidade
Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality
June 13, 2024
Autores: Tianle Zhang, Langtian Ma, Yuchen Yan, Yuchen Zhang, Kai Wang, Yue Yang, Ziyao Guo, Wenqi Shao, Yang You, Yu Qiao, Ping Luo, Kaipeng Zhang
cs.AI
Resumo
Os recentes avanços na tecnologia de texto para vídeo (T2V), demonstrados por modelos como Gen2, Pika e Sora, ampliaram significativamente sua aplicabilidade e popularidade. Apesar desses progressos, a avaliação desses modelos apresenta desafios substanciais. Principalmente, devido às limitações inerentes às métricas automáticas, a avaliação manual é frequentemente considerada um método superior para avaliar a geração T2V. No entanto, os protocolos de avaliação manual existentes enfrentam problemas de reprodutibilidade, confiabilidade e praticidade. Para abordar esses desafios, este artigo introduz o protocolo de Avaliação Humana de Texto para Vídeo (T2VHE), um protocolo abrangente e padronizado para modelos T2V. O protocolo T2VHE inclui métricas bem definidas, treinamento detalhado de anotadores e um módulo de avaliação dinâmica eficaz. Os resultados experimentais demonstram que esse protocolo não apenas garante anotações de alta qualidade, mas também pode reduzir os custos de avaliação em quase 50%. Disponibilizaremos como código aberto toda a configuração do protocolo T2VHE, incluindo o fluxo de trabalho completo do protocolo, os detalhes do componente de avaliação dinâmica e o código da interface de anotação. Isso ajudará as comunidades a estabelecerem protocolos de avaliação humana mais sofisticados.
English
Recent text-to-video (T2V) technology advancements, as demonstrated by models
such as Gen2, Pika, and Sora, have significantly broadened its applicability
and popularity. Despite these strides, evaluating these models poses
substantial challenges. Primarily, due to the limitations inherent in automatic
metrics, manual evaluation is often considered a superior method for assessing
T2V generation. However, existing manual evaluation protocols face
reproducibility, reliability, and practicality issues. To address these
challenges, this paper introduces the Text-to-Video Human Evaluation (T2VHE)
protocol, a comprehensive and standardized protocol for T2V models. The T2VHE
protocol includes well-defined metrics, thorough annotator training, and an
effective dynamic evaluation module. Experimental results demonstrate that this
protocol not only ensures high-quality annotations but can also reduce
evaluation costs by nearly 50%. We will open-source the entire setup of the
T2VHE protocol, including the complete protocol workflow, the dynamic
evaluation component details, and the annotation interface code. This will help
communities establish more sophisticated human assessment protocols.