ChatPaper.aiChatPaper

Dynaword: 원샷에서 지속적으로 개발되는 데이터셋으로

Dynaword: From One-shot to Continuously Developed Datasets

August 4, 2025
저자: Kenneth Enevoldsen, Kristian Nørgaard Jensen, Jan Kostkan, Balázs Szabó, Márton Kardos, Kirten Vad, Andrea Blasi Núñez, Gianluca Barmina, Jacob Nielsen, Rasmus Larsen, Peter Vahlstrup, Per Møldrup Dalum, Desmond Elliott, Lukas Galke, Peter Schneider-Kamp, Kristoffer Nielbo
cs.AI

초록

대규모 데이터셋은 자연어 처리 분야의 연구 및 개발을 위한 기초적 요소입니다. 그러나 현재의 접근 방식은 세 가지 주요 과제에 직면해 있습니다: (1) 모호한 라이선스가 적용된 소스에 의존함으로써 사용, 공유 및 2차 저작물 생성이 제한되는 문제; (2) 커뮤니티 기여를 방해하고 장기적인 활용성을 저해하는 정적 데이터셋 공개 방식; (3) 출판 팀에 국한된 품질 보증 프로세스로 인해 커뮤니티 전문성을 활용하지 못하는 한계. 이러한 한계를 해결하기 위해, 우리는 두 가지 기여를 소개합니다: Dynaword 접근법과 Danish Dynaword입니다. Dynaword 접근법은 커뮤니티 협력을 통해 지속적으로 업데이트될 수 있는 대규모 오픈 데이터셋을 생성하기 위한 프레임워크입니다. Danish Dynaword는 이 접근법을 검증하고 그 잠재력을 입증하는 구체적인 구현 사례입니다. Danish Dynaword는 유사한 데이터셋 대비 네 배 이상의 토큰을 포함하며, 완전히 오픈 라이선스로 제공되고, 산업계와 연구계로부터 다수의 기여를 받았습니다. 이 저장소는 데이터 형식, 품질 및 문서화를 보장하기 위한 경량 테스트를 포함하여, 지속 가능한 커뮤니티 기여 및 데이터셋 진화를 위한 프레임워크를 구축합니다.
English
Large-scale datasets are foundational for research and development in natural language processing. However, current approaches face three key challenges: (1) reliance on ambiguously licensed sources restricting use, sharing, and derivative works; (2) static dataset releases that prevent community contributions and diminish longevity; and (3) quality assurance processes restricted to publishing teams rather than leveraging community expertise. To address these limitations, we introduce two contributions: the Dynaword approach and Danish Dynaword. The Dynaword approach is a framework for creating large-scale, open datasets that can be continuously updated through community collaboration. Danish Dynaword is a concrete implementation that validates this approach and demonstrates its potential. Danish Dynaword contains over four times as many tokens as comparable releases, is exclusively openly licensed, and has received multiple contributions across industry and research. The repository includes light-weight tests to ensure data formatting, quality, and documentation, establishing a sustainable framework for ongoing community contributions and dataset evolution.
PDF132August 5, 2025