ChatPaper.aiChatPaper

La sfida di riconoscimento del parlante VoxCeleb: una retrospettiva

The VoxCeleb Speaker Recognition Challenge: A Retrospective

August 27, 2024
Autori: Jaesung Huh, Joon Son Chung, Arsha Nagrani, Andrew Brown, Jee-weon Jung, Daniel Garcia-Romero, Andrew Zisserman
cs.AI

Abstract

Le sfide di riconoscimento dei locutori VoxCeleb (VoxSRC) sono state una serie di competizioni e workshop che si sono svolti annualmente dal 2019 al 2023. Le sfide hanno valutato principalmente i compiti di riconoscimento dei locutori e diarizzazione in vari contesti, tra cui: dati di addestramento chiusi e aperti; nonché addestramento supervisionato, auto-supervisionato e semi-supervisionato per l'adattamento di dominio. Le sfide hanno inoltre fornito set di dati di addestramento e valutazione pubblicamente disponibili per ciascun compito e contesto, con nuovi set di test rilasciati ogni anno. In questo articolo, forniamo una panoramica di queste sfide che include: ciò che hanno esplorato; i metodi sviluppati dai partecipanti alle sfide e come questi sono evoluti; nonché lo stato attuale del settore per la verifica dei locutori e la diarizzazione. Seguiamo i progressi delle prestazioni durante i cinque episodi della sfida su un set di valutazione comune e forniamo un'analisi dettagliata su come il focus speciale di ciascun anno abbia influenzato le prestazioni dei partecipanti. Questo articolo è rivolto sia ai ricercatori che desiderano una panoramica del settore del riconoscimento dei locutori e della diarizzazione, sia agli organizzatori di sfide che desiderano beneficiare dei successi e evitare gli errori delle sfide VoxSRC. Concludiamo con una discussione sui punti di forza attuali del settore e sulle sfide aperte. Pagina del progetto: https://mm.kaist.ac.kr/datasets/voxceleb/voxsrc/workshop.html
English
The VoxCeleb Speaker Recognition Challenges (VoxSRC) were a series of challenges and workshops that ran annually from 2019 to 2023. The challenges primarily evaluated the tasks of speaker recognition and diarisation under various settings including: closed and open training data; as well as supervised, self-supervised, and semi-supervised training for domain adaptation. The challenges also provided publicly available training and evaluation datasets for each task and setting, with new test sets released each year. In this paper, we provide a review of these challenges that covers: what they explored; the methods developed by the challenge participants and how these evolved; and also the current state of the field for speaker verification and diarisation. We chart the progress in performance over the five installments of the challenge on a common evaluation dataset and provide a detailed analysis of how each year's special focus affected participants' performance. This paper is aimed both at researchers who want an overview of the speaker recognition and diarisation field, and also at challenge organisers who want to benefit from the successes and avoid the mistakes of the VoxSRC challenges. We end with a discussion of the current strengths of the field and open challenges. Project page : https://mm.kaist.ac.kr/datasets/voxceleb/voxsrc/workshop.html
PDF112November 16, 2024