La sfida di riconoscimento del parlante VoxCeleb: una retrospettiva
The VoxCeleb Speaker Recognition Challenge: A Retrospective
August 27, 2024
Autori: Jaesung Huh, Joon Son Chung, Arsha Nagrani, Andrew Brown, Jee-weon Jung, Daniel Garcia-Romero, Andrew Zisserman
cs.AI
Abstract
Le sfide di riconoscimento dei locutori VoxCeleb (VoxSRC) sono state una serie di competizioni e workshop che si sono svolti annualmente dal 2019 al 2023. Le sfide hanno valutato principalmente i compiti di riconoscimento dei locutori e diarizzazione in vari contesti, tra cui: dati di addestramento chiusi e aperti; nonché addestramento supervisionato, auto-supervisionato e semi-supervisionato per l'adattamento di dominio. Le sfide hanno inoltre fornito set di dati di addestramento e valutazione pubblicamente disponibili per ciascun compito e contesto, con nuovi set di test rilasciati ogni anno. In questo articolo, forniamo una panoramica di queste sfide che include: ciò che hanno esplorato; i metodi sviluppati dai partecipanti alle sfide e come questi sono evoluti; nonché lo stato attuale del settore per la verifica dei locutori e la diarizzazione. Seguiamo i progressi delle prestazioni durante i cinque episodi della sfida su un set di valutazione comune e forniamo un'analisi dettagliata su come il focus speciale di ciascun anno abbia influenzato le prestazioni dei partecipanti. Questo articolo è rivolto sia ai ricercatori che desiderano una panoramica del settore del riconoscimento dei locutori e della diarizzazione, sia agli organizzatori di sfide che desiderano beneficiare dei successi e evitare gli errori delle sfide VoxSRC. Concludiamo con una discussione sui punti di forza attuali del settore e sulle sfide aperte. Pagina del progetto: https://mm.kaist.ac.kr/datasets/voxceleb/voxsrc/workshop.html
English
The VoxCeleb Speaker Recognition Challenges (VoxSRC) were a series of
challenges and workshops that ran annually from 2019 to 2023. The challenges
primarily evaluated the tasks of speaker recognition and diarisation under
various settings including: closed and open training data; as well as
supervised, self-supervised, and semi-supervised training for domain
adaptation. The challenges also provided publicly available training and
evaluation datasets for each task and setting, with new test sets released each
year. In this paper, we provide a review of these challenges that covers: what
they explored; the methods developed by the challenge participants and how
these evolved; and also the current state of the field for speaker verification
and diarisation. We chart the progress in performance over the five
installments of the challenge on a common evaluation dataset and provide a
detailed analysis of how each year's special focus affected participants'
performance. This paper is aimed both at researchers who want an overview of
the speaker recognition and diarisation field, and also at challenge organisers
who want to benefit from the successes and avoid the mistakes of the VoxSRC
challenges. We end with a discussion of the current strengths of the field and
open challenges. Project page :
https://mm.kaist.ac.kr/datasets/voxceleb/voxsrc/workshop.html