Taalcomplexiteitsmeting als een ruisgevoelige zero-shot proxy voor het evalueren van LLM-prestaties

Samenvatting

Grote Taalmodellen (LLMs) hebben aanzienlijke vooruitgang geboekt in natuurlijke taalgeneratie, maar worden vaak geconfronteerd met uitdagingen bij taken die precieze berekeningen en structurele analyse vereisen. Dit artikel onderzoekt de prestaties van state-of-the-art LLMs bij taken voor het meten van taalcomplexiteit, door de berekening van de LIX-leesbaarheidsmetriek en de Gemiddelde Afhankelijkheidsafstand (ADD). Met behulp van Zweedse essays op middelbare school- en universitair niveau evalueren we het vermogen van de modellen om LIX-scores te berekenen en afhankelijkheidsparsing uit te voeren, waarbij we hun resultaten vergelijken met gevestigde grondwaarden. Onze bevindingen tonen aan dat, hoewel alle modellen enig vermogen voor deze taken vertonen, ChatGPT-o1-mini het meest consistent presteert en de hoogste nauwkeurigheid bereikt bij zowel de LIX-berekening als de afhankelijkheidsparsing. Daarnaast observeren we een sterke significante correlatie van -0,875 p 0,026 (N=6) tussen de nauwkeurigheid van de modellen bij het berekenen van LIX en hun algehele prestaties op de Massive Multitask Language Understanding (MMLU) benchmark. Deze resultaten suggereren dat het vermogen om taalcomplexiteit te meten kan dienen als een ruwe zero-shot proxy voor het beoordelen van de algemene capaciteiten van LLMs, wat een praktische methode biedt voor model evaluatie zonder de noodzaak van uitgebreide benchmarkdatasets.

English

Large Language Models (LLMs) have made significant strides in natural language generation but often face challenges in tasks requiring precise calculations and structural analysis. This paper investigates the performance of state-of-the-art LLMs on language complexity measurement tasks, through the computation of the LIX readability metric and Average Dependency Distance (ADD). Using Swedish high school and university-level essays, we evaluate the models' abilities to compute LIX scores and perform dependency parsing, comparing their results to established ground truths. Our findings reveal that while all models demonstrate some capacity for these tasks, ChatGPT-o1-mini performs most consistently, achieving the highest accuracy in both LIX computation and dependency parsing. Additionally, we observe a strong significant correlation -0.875 p 0.026 (N=6) between the models' accuracy in computing LIX and their overall performance on the Massive Multitask Language Understanding (MMLU) benchmark. These results suggest that language complexity measurement abilities can serve as a noisy zero-shot proxies for assessing the general capabilities of LLMs, providing a practical method for model evaluation without the need for extensive benchmarking datasets.

Taalcomplexiteitsmeting als een ruisgevoelige zero-shot proxy voor het evalueren van LLM-prestaties

Language Complexity Measurement as a Noisy Zero-Shot Proxy for Evaluating LLM Performance

Samenvatting

Support