ChatPaper.aiChatPaper

Neubewertung des menschlichen Bewertungsprotokolls für Text-zu-Video-Modelle: Verbesserung von Zuverlässigkeit, Reproduzierbarkeit und Praktikabilität.

Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality

June 13, 2024
Autoren: Tianle Zhang, Langtian Ma, Yuchen Yan, Yuchen Zhang, Kai Wang, Yue Yang, Ziyao Guo, Wenqi Shao, Yang You, Yu Qiao, Ping Luo, Kaipeng Zhang
cs.AI

Zusammenfassung

Die jüngsten Fortschritte in der Text-zu-Video (T2V) Technologie, wie sie von Modellen wie Gen2, Pika und Sora demonstriert werden, haben ihre Anwendbarkeit und Beliebtheit signifikant erweitert. Trotz dieser Fortschritte stellen die Bewertung dieser Modelle erhebliche Herausforderungen dar. Hauptsächlich aufgrund der Einschränkungen automatischer Metriken wird die manuelle Bewertung oft als überlegene Methode zur Bewertung der T2V-Generierung angesehen. Allerdings sehen sich bestehende manuelle Bewertungsprotokolle mit Reproduzierbarkeits-, Zuverlässigkeits- und Praktikabilitätsproblemen konfrontiert. Um diesen Herausforderungen zu begegnen, führt dieser Artikel das Text-zu-Video Human Evaluation (T2VHE) Protokoll ein, ein umfassendes und standardisiertes Protokoll für T2V-Modelle. Das T2VHE Protokoll umfasst klar definierte Metriken, gründliches Training der Annotatoren und ein effektives dynamisches Bewertungsmodul. Experimentelle Ergebnisse zeigen, dass dieses Protokoll nicht nur hochwertige Annotationen gewährleistet, sondern auch die Bewertungskosten um fast 50% senken kann. Wir werden das gesamte Setup des T2VHE Protokolls als Open-Source veröffentlichen, einschließlich des vollständigen Protokoll-Workflows, der Details zum dynamischen Bewertungskomponenten und des Annotierungsschnittstellen-Codes. Dies wird dazu beitragen, dass Gemeinschaften anspruchsvollere menschliche Bewertungsprotokolle etablieren können.
English
Recent text-to-video (T2V) technology advancements, as demonstrated by models such as Gen2, Pika, and Sora, have significantly broadened its applicability and popularity. Despite these strides, evaluating these models poses substantial challenges. Primarily, due to the limitations inherent in automatic metrics, manual evaluation is often considered a superior method for assessing T2V generation. However, existing manual evaluation protocols face reproducibility, reliability, and practicality issues. To address these challenges, this paper introduces the Text-to-Video Human Evaluation (T2VHE) protocol, a comprehensive and standardized protocol for T2V models. The T2VHE protocol includes well-defined metrics, thorough annotator training, and an effective dynamic evaluation module. Experimental results demonstrate that this protocol not only ensures high-quality annotations but can also reduce evaluation costs by nearly 50%. We will open-source the entire setup of the T2VHE protocol, including the complete protocol workflow, the dynamic evaluation component details, and the annotation interface code. This will help communities establish more sophisticated human assessment protocols.

Summary

AI-Generated Summary

PDF91December 6, 2024