Dynaword : Des jeux de données ponctuels aux ensembles en développement continu
Dynaword: From One-shot to Continuously Developed Datasets
August 4, 2025
papers.authors: Kenneth Enevoldsen, Kristian Nørgaard Jensen, Jan Kostkan, Balázs Szabó, Márton Kardos, Kirten Vad, Andrea Blasi Núñez, Gianluca Barmina, Jacob Nielsen, Rasmus Larsen, Peter Vahlstrup, Per Møldrup Dalum, Desmond Elliott, Lukas Galke, Peter Schneider-Kamp, Kristoffer Nielbo
cs.AI
papers.abstract
Les jeux de données à grande échelle sont fondamentaux pour la recherche et le développement en traitement automatique du langage naturel. Cependant, les approches actuelles font face à trois défis majeurs : (1) la dépendance à des sources sous licence ambiguë, limitant l'utilisation, le partage et les œuvres dérivées ; (2) des publications de jeux de données statiques qui empêchent les contributions de la communauté et réduisent leur longévité ; et (3) des processus d'assurance qualité restreints aux équipes de publication plutôt que de tirer parti de l'expertise communautaire.
Pour répondre à ces limitations, nous introduisons deux contributions : l'approche Dynaword et Danish Dynaword. L'approche Dynaword est un cadre pour la création de jeux de données ouverts à grande échelle, pouvant être continuellement mis à jour grâce à la collaboration communautaire. Danish Dynaword est une implémentation concrète qui valide cette approche et démontre son potentiel. Danish Dynaword contient plus de quatre fois plus de tokens que les publications comparables, est exclusivement sous licence ouverte, et a reçu de multiples contributions issues de l'industrie et de la recherche. Le référentiel inclut des tests légers pour garantir le formatage, la qualité et la documentation des données, établissant ainsi un cadre durable pour les contributions continues de la communauté et l'évolution des jeux de données.
English
Large-scale datasets are foundational for research and development in natural
language processing. However, current approaches face three key challenges: (1)
reliance on ambiguously licensed sources restricting use, sharing, and
derivative works; (2) static dataset releases that prevent community
contributions and diminish longevity; and (3) quality assurance processes
restricted to publishing teams rather than leveraging community expertise.
To address these limitations, we introduce two contributions: the Dynaword
approach and Danish Dynaword. The Dynaword approach is a framework for creating
large-scale, open datasets that can be continuously updated through community
collaboration. Danish Dynaword is a concrete implementation that validates this
approach and demonstrates its potential. Danish Dynaword contains over four
times as many tokens as comparable releases, is exclusively openly licensed,
and has received multiple contributions across industry and research. The
repository includes light-weight tests to ensure data formatting, quality, and
documentation, establishing a sustainable framework for ongoing community
contributions and dataset evolution.