ChatPaper.aiChatPaper

De VoxCeleb Spraakherkenning Challenge: Een Terugblik

The VoxCeleb Speaker Recognition Challenge: A Retrospective

August 27, 2024
Auteurs: Jaesung Huh, Joon Son Chung, Arsha Nagrani, Andrew Brown, Jee-weon Jung, Daniel Garcia-Romero, Andrew Zisserman
cs.AI

Samenvatting

De VoxCeleb Speaker Recognition Challenges (VoxSRC) waren een reeks uitdagingen en workshops die jaarlijks plaatsvonden van 2019 tot 2023. De uitdagingen richtten zich voornamelijk op het evalueren van taken op het gebied van sprekerherkenning en diarisering onder verschillende omstandigheden, waaronder: gesloten en open trainingsdata; en begeleide, zelf-begeleide en semi-begeleide training voor domeinaanpassing. De uitdagingen boden ook openbaar beschikbare trainings- en evaluatiedatasets voor elke taak en omstandigheid, waarbij elk jaar nieuwe testdatasets werden vrijgegeven. In dit artikel bieden we een overzicht van deze uitdagingen, waarin we bespreken: wat ze onderzochten; de methoden die door de deelnemers werden ontwikkeld en hoe deze evolueerden; en ook de huidige stand van zaken op het gebied van sprekersverificatie en diarisering. We schetsen de vooruitgang in prestaties over de vijf edities van de uitdaging op een gemeenschappelijke evaluatiedataset en geven een gedetailleerde analyse van hoe de speciale focus van elk jaar de prestaties van de deelnemers beïnvloedde. Dit artikel is bedoeld voor onderzoekers die een overzicht willen van het vakgebied van sprekerherkenning en diarisering, en ook voor organisatoren van uitdagingen die willen profiteren van de successen en de fouten van de VoxSRC-uitdagingen willen vermijden. We sluiten af met een bespreking van de huidige sterke punten van het vakgebied en de openstaande uitdagingen. Projectpagina: https://mm.kaist.ac.kr/datasets/voxceleb/voxsrc/workshop.html
English
The VoxCeleb Speaker Recognition Challenges (VoxSRC) were a series of challenges and workshops that ran annually from 2019 to 2023. The challenges primarily evaluated the tasks of speaker recognition and diarisation under various settings including: closed and open training data; as well as supervised, self-supervised, and semi-supervised training for domain adaptation. The challenges also provided publicly available training and evaluation datasets for each task and setting, with new test sets released each year. In this paper, we provide a review of these challenges that covers: what they explored; the methods developed by the challenge participants and how these evolved; and also the current state of the field for speaker verification and diarisation. We chart the progress in performance over the five installments of the challenge on a common evaluation dataset and provide a detailed analysis of how each year's special focus affected participants' performance. This paper is aimed both at researchers who want an overview of the speaker recognition and diarisation field, and also at challenge organisers who want to benefit from the successes and avoid the mistakes of the VoxSRC challenges. We end with a discussion of the current strengths of the field and open challenges. Project page : https://mm.kaist.ac.kr/datasets/voxceleb/voxsrc/workshop.html

Summary

AI-Generated Summary

PDF112November 16, 2024