イタリアにおける計算言語学の10年を描く:CLiC-itコーパス
Charting a Decade of Computational Linguistics in Italy: The CLiC-it Corpus
September 23, 2025
著者: Chiara Alzetta, Serena Auriemma, Alessandro Bondielli, Luca Dini, Chiara Fazzone, Alessio Miaschi, Martina Miliani, Marta Sartor
cs.AI
要旨
過去10年間において、計算言語学(CL)と自然言語処理(NLP)は急速に進化し、特にTransformerベースの大規模言語モデル(LLM)の登場によって大きな変革を遂げてきました。この変化は、研究の目標と優先事項を、語彙的・意味的リソースから言語モデリングやマルチモーダリティへと転換させました。本研究では、イタリアのCLおよびNLPコミュニティの研究トレンドを、同分野における主要な会議であるCLiC-itへの投稿分析を通じて追跡します。CLiC-it会議の最初の10回分(2014年から2024年まで)の議事録をCLiC-itコーパスとしてまとめ、著者の出身地、性別、所属機関などのメタデータと、多様なトピックを扱った論文の内容の両方について包括的な分析を提供します。私たちの目的は、イタリアおよび国際的な研究コミュニティに対して、時系列で見た新興トレンドと主要な進展に関する貴重な洞察を提供し、この分野における情報に基づいた意思決定と将来の方向性を支援することです。
English
Over the past decade, Computational Linguistics (CL) and Natural Language
Processing (NLP) have evolved rapidly, especially with the advent of
Transformer-based Large Language Models (LLMs). This shift has transformed
research goals and priorities, from Lexical and Semantic Resources to Language
Modelling and Multimodality. In this study, we track the research trends of the
Italian CL and NLP community through an analysis of the contributions to
CLiC-it, arguably the leading Italian conference in the field. We compile the
proceedings from the first 10 editions of the CLiC-it conference (from 2014 to
2024) into the CLiC-it Corpus, providing a comprehensive analysis of both its
metadata, including author provenance, gender, affiliations, and more, as well
as the content of the papers themselves, which address various topics. Our goal
is to provide the Italian and international research communities with valuable
insights into emerging trends and key developments over time, supporting
informed decisions and future directions in the field.