Mesure de la complexité linguistique en tant que proxy bruité de type zéro-shot pour évaluer les performances des LLM.
Language Complexity Measurement as a Noisy Zero-Shot Proxy for Evaluating LLM Performance
February 17, 2025
Auteurs: Birger Moell, Johan Boye
cs.AI
Résumé
Les grands modèles de langage (LLM) ont fait des progrès significatifs dans la génération de langage naturel, mais rencontrent souvent des défis dans les tâches nécessitant des calculs précis et une analyse structurale. Ce document examine les performances des LLM de pointe sur des tâches de mesure de la complexité linguistique, à travers le calcul de la métrique de lisibilité LIX et de la Distance Moyenne de Dépendance (ADD). En utilisant des essais suédois de lycée et de niveau universitaire, nous évaluons les capacités des modèles à calculer les scores LIX et à effectuer l'analyse de dépendance, en comparant leurs résultats aux vérités établies. Nos résultats révèlent que bien que tous les modèles démontrent une certaine capacité pour ces tâches, ChatGPT-o1-mini est le plus cohérent, atteignant la plus haute précision à la fois dans le calcul de LIX et dans l'analyse de dépendance. De plus, nous observons une forte corrélation significative de -0,875 p 0,026 (N=6) entre la précision des modèles dans le calcul de LIX et leurs performances globales sur le benchmark Massive Multitask Language Understanding (MMLU). Ces résultats suggèrent que les capacités de mesure de la complexité linguistique peuvent servir de proxies bruités en zéro-shot pour évaluer les capacités générales des LLM, offrant une méthode pratique pour l'évaluation des modèles sans avoir besoin de vastes ensembles de données de référence.
English
Large Language Models (LLMs) have made significant strides in natural
language generation but often face challenges in tasks requiring precise
calculations and structural analysis. This paper investigates the performance
of state-of-the-art LLMs on language complexity measurement tasks, through the
computation of the LIX readability metric and Average Dependency Distance
(ADD). Using Swedish high school and university-level essays, we evaluate the
models' abilities to compute LIX scores and perform dependency parsing,
comparing their results to established ground truths. Our findings reveal that
while all models demonstrate some capacity for these tasks, ChatGPT-o1-mini
performs most consistently, achieving the highest accuracy in both LIX
computation and dependency parsing. Additionally, we observe a strong
significant correlation -0.875 p 0.026 (N=6) between the models' accuracy in
computing LIX and their overall performance on the Massive Multitask Language
Understanding (MMLU) benchmark. These results suggest that language complexity
measurement abilities can serve as a noisy zero-shot proxies for assessing the
general capabilities of LLMs, providing a practical method for model evaluation
without the need for extensive benchmarking datasets.Summary
AI-Generated Summary