텍스트-투-비디오 모델을 위한 인간 평가 프로토콜 재고: 신뢰성, 재현성 및 실용성 강화
Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality
June 13, 2024
저자: Tianle Zhang, Langtian Ma, Yuchen Yan, Yuchen Zhang, Kai Wang, Yue Yang, Ziyao Guo, Wenqi Shao, Yang You, Yu Qiao, Ping Luo, Kaipeng Zhang
cs.AI
초록
최근 Gen2, Pika, Sora와 같은 모델로 입증된 텍스트-투-비디오(T2V) 기술의 발전은 그 적용 범위와 인기를 크게 확장시켰습니다. 이러한 진전에도 불구하고, 이러한 모델을 평가하는 것은 상당한 도전 과제로 남아 있습니다. 주로 자동 평가 지표의 한계로 인해, T2V 생성 평가에는 수동 평가가 더 우수한 방법으로 간주됩니다. 그러나 기존의 수동 평가 프로토콜은 재현성, 신뢰성, 실용성 문제에 직면해 있습니다. 이러한 문제를 해결하기 위해, 본 논문은 T2V 모델을 위한 포괄적이고 표준화된 프로토콜인 텍스트-투-비디오 인간 평가(T2VHE) 프로토콜을 소개합니다. T2VHE 프로토콜은 명확하게 정의된 지표, 철저한 평가자 교육, 효과적인 동적 평가 모듈을 포함합니다. 실험 결과는 이 프로토콜이 고품질의 주석을 보장할 뿐만 아니라 평가 비용을 거의 50%까지 줄일 수 있음을 보여줍니다. 우리는 T2VHE 프로토콜의 전체 설정, 완전한 프로토콜 워크플로우, 동적 평가 구성 요소 세부 사항, 주석 인터페이스 코드를 오픈소스로 공개할 예정입니다. 이를 통해 커뮤니티가 더 정교한 인간 평가 프로토콜을 구축하는 데 도움이 될 것입니다.
English
Recent text-to-video (T2V) technology advancements, as demonstrated by models
such as Gen2, Pika, and Sora, have significantly broadened its applicability
and popularity. Despite these strides, evaluating these models poses
substantial challenges. Primarily, due to the limitations inherent in automatic
metrics, manual evaluation is often considered a superior method for assessing
T2V generation. However, existing manual evaluation protocols face
reproducibility, reliability, and practicality issues. To address these
challenges, this paper introduces the Text-to-Video Human Evaluation (T2VHE)
protocol, a comprehensive and standardized protocol for T2V models. The T2VHE
protocol includes well-defined metrics, thorough annotator training, and an
effective dynamic evaluation module. Experimental results demonstrate that this
protocol not only ensures high-quality annotations but can also reduce
evaluation costs by nearly 50%. We will open-source the entire setup of the
T2VHE protocol, including the complete protocol workflow, the dynamic
evaluation component details, and the annotation interface code. This will help
communities establish more sophisticated human assessment protocols.Summary
AI-Generated Summary