Heroverweging van het Evaluatieprotocol voor Menselijke Beoordeling van Tekst-naar-Video Modellen: Verbetering van Betrouwbaarheid, Reproduceerbaarheid en Praktische Toepasbaarheid
Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality
June 13, 2024
Auteurs: Tianle Zhang, Langtian Ma, Yuchen Yan, Yuchen Zhang, Kai Wang, Yue Yang, Ziyao Guo, Wenqi Shao, Yang You, Yu Qiao, Ping Luo, Kaipeng Zhang
cs.AI
Samenvatting
Recente vooruitgang in tekst-naar-video (T2V) technologie, zoals gedemonstreerd door modellen zoals Gen2, Pika en Sora, heeft de toepasbaarheid en populariteit ervan aanzienlijk vergroot. Ondanks deze vooruitgang blijft het evalueren van deze modellen een aanzienlijke uitdaging. Voornamelijk vanwege de beperkingen van automatische metrieken wordt handmatige evaluatie vaak beschouwd als een superieure methode voor het beoordelen van T2V-generatie. Bestaande handmatige evaluatieprotocollen kampen echter met problemen op het gebied van reproduceerbaarheid, betrouwbaarheid en praktische haalbaarheid. Om deze uitdagingen aan te pakken, introduceert dit artikel het Text-to-Video Human Evaluation (T2VHE) protocol, een uitgebreid en gestandaardiseerd protocol voor T2V-modellen. Het T2VHE-protocol omvat goed gedefinieerde metrieken, grondige training van annotators en een effectieve dynamische evaluatiemodule. Experimentele resultaten tonen aan dat dit protocol niet alleen hoogwaardige annotaties waarborgt, maar ook de evaluatiekosten met bijna 50% kan verlagen. We zullen de volledige opzet van het T2VHE-protocol open source maken, inclusief het complete protocolwerkproces, de details van de dynamische evaluatiecomponent en de code van de annotatie-interface. Dit zal gemeenschappen helpen om meer verfijnde menselijke beoordelingsprotocollen op te zetten.
English
Recent text-to-video (T2V) technology advancements, as demonstrated by models
such as Gen2, Pika, and Sora, have significantly broadened its applicability
and popularity. Despite these strides, evaluating these models poses
substantial challenges. Primarily, due to the limitations inherent in automatic
metrics, manual evaluation is often considered a superior method for assessing
T2V generation. However, existing manual evaluation protocols face
reproducibility, reliability, and practicality issues. To address these
challenges, this paper introduces the Text-to-Video Human Evaluation (T2VHE)
protocol, a comprehensive and standardized protocol for T2V models. The T2VHE
protocol includes well-defined metrics, thorough annotator training, and an
effective dynamic evaluation module. Experimental results demonstrate that this
protocol not only ensures high-quality annotations but can also reduce
evaluation costs by nearly 50%. We will open-source the entire setup of the
T2VHE protocol, including the complete protocol workflow, the dynamic
evaluation component details, and the annotation interface code. This will help
communities establish more sophisticated human assessment protocols.