Taalcomplexiteitsmeting als een ruisgevoelige zero-shot proxy voor het evalueren van LLM-prestaties
Language Complexity Measurement as a Noisy Zero-Shot Proxy for Evaluating LLM Performance
February 17, 2025
Auteurs: Birger Moell, Johan Boye
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben aanzienlijke vooruitgang geboekt in natuurlijke taalgeneratie, maar worden vaak geconfronteerd met uitdagingen bij taken die precieze berekeningen en structurele analyse vereisen. Dit artikel onderzoekt de prestaties van state-of-the-art LLMs bij taken voor het meten van taalcomplexiteit, door de berekening van de LIX-leesbaarheidsmetriek en de Gemiddelde Afhankelijkheidsafstand (ADD). Met behulp van Zweedse essays op middelbare school- en universitair niveau evalueren we het vermogen van de modellen om LIX-scores te berekenen en afhankelijkheidsparsing uit te voeren, waarbij we hun resultaten vergelijken met gevestigde grondwaarden. Onze bevindingen tonen aan dat, hoewel alle modellen enig vermogen voor deze taken vertonen, ChatGPT-o1-mini het meest consistent presteert en de hoogste nauwkeurigheid bereikt bij zowel de LIX-berekening als de afhankelijkheidsparsing. Daarnaast observeren we een sterke significante correlatie van -0,875 p 0,026 (N=6) tussen de nauwkeurigheid van de modellen bij het berekenen van LIX en hun algehele prestaties op de Massive Multitask Language Understanding (MMLU) benchmark. Deze resultaten suggereren dat het vermogen om taalcomplexiteit te meten kan dienen als een ruwe zero-shot proxy voor het beoordelen van de algemene capaciteiten van LLMs, wat een praktische methode biedt voor model evaluatie zonder de noodzaak van uitgebreide benchmarkdatasets.
English
Large Language Models (LLMs) have made significant strides in natural
language generation but often face challenges in tasks requiring precise
calculations and structural analysis. This paper investigates the performance
of state-of-the-art LLMs on language complexity measurement tasks, through the
computation of the LIX readability metric and Average Dependency Distance
(ADD). Using Swedish high school and university-level essays, we evaluate the
models' abilities to compute LIX scores and perform dependency parsing,
comparing their results to established ground truths. Our findings reveal that
while all models demonstrate some capacity for these tasks, ChatGPT-o1-mini
performs most consistently, achieving the highest accuracy in both LIX
computation and dependency parsing. Additionally, we observe a strong
significant correlation -0.875 p 0.026 (N=6) between the models' accuracy in
computing LIX and their overall performance on the Massive Multitask Language
Understanding (MMLU) benchmark. These results suggest that language complexity
measurement abilities can serve as a noisy zero-shot proxies for assessing the
general capabilities of LLMs, providing a practical method for model evaluation
without the need for extensive benchmarking datasets.