ChatPaper.aiChatPaper

Mesure de la complexité linguistique en tant que proxy bruité de type zéro-shot pour évaluer les performances des LLM.

Language Complexity Measurement as a Noisy Zero-Shot Proxy for Evaluating LLM Performance

February 17, 2025
Auteurs: Birger Moell, Johan Boye
cs.AI

Résumé

Les grands modèles de langage (LLM) ont fait des progrès significatifs dans la génération de langage naturel, mais rencontrent souvent des défis dans les tâches nécessitant des calculs précis et une analyse structurale. Ce document examine les performances des LLM de pointe sur des tâches de mesure de la complexité linguistique, à travers le calcul de la métrique de lisibilité LIX et de la Distance Moyenne de Dépendance (ADD). En utilisant des essais suédois de lycée et de niveau universitaire, nous évaluons les capacités des modèles à calculer les scores LIX et à effectuer l'analyse de dépendance, en comparant leurs résultats aux vérités établies. Nos résultats révèlent que bien que tous les modèles démontrent une certaine capacité pour ces tâches, ChatGPT-o1-mini est le plus cohérent, atteignant la plus haute précision à la fois dans le calcul de LIX et dans l'analyse de dépendance. De plus, nous observons une forte corrélation significative de -0,875 p 0,026 (N=6) entre la précision des modèles dans le calcul de LIX et leurs performances globales sur le benchmark Massive Multitask Language Understanding (MMLU). Ces résultats suggèrent que les capacités de mesure de la complexité linguistique peuvent servir de proxies bruités en zéro-shot pour évaluer les capacités générales des LLM, offrant une méthode pratique pour l'évaluation des modèles sans avoir besoin de vastes ensembles de données de référence.
English
Large Language Models (LLMs) have made significant strides in natural language generation but often face challenges in tasks requiring precise calculations and structural analysis. This paper investigates the performance of state-of-the-art LLMs on language complexity measurement tasks, through the computation of the LIX readability metric and Average Dependency Distance (ADD). Using Swedish high school and university-level essays, we evaluate the models' abilities to compute LIX scores and perform dependency parsing, comparing their results to established ground truths. Our findings reveal that while all models demonstrate some capacity for these tasks, ChatGPT-o1-mini performs most consistently, achieving the highest accuracy in both LIX computation and dependency parsing. Additionally, we observe a strong significant correlation -0.875 p 0.026 (N=6) between the models' accuracy in computing LIX and their overall performance on the Massive Multitask Language Understanding (MMLU) benchmark. These results suggest that language complexity measurement abilities can serve as a noisy zero-shot proxies for assessing the general capabilities of LLMs, providing a practical method for model evaluation without the need for extensive benchmarking datasets.

Summary

AI-Generated Summary

PDF02February 18, 2025