papers.description
Wir präsentieren AraLingBench: einen vollständig von Menschen annotierten Benchmark zur Bewertung der arabischen linguistischen Kompetenz von großen Sprachmodellen (LLMs). Der Benchmark umfasst fünf Kernkategorien: Grammatik, Morphologie, Rechtschreibung, Leseverständnis und Syntax, anhand von 150 von Experten entworfenen Multiple-Choice-Fragen, die direkt das strukturelle Sprachverständnis bewerten. Die Auswertung von 35 arabischen und zweisprachigen LLMs zeigt, dass aktuelle Modelle eine starke oberflächliche Beherrschung aufweisen, jedoch mit tiefergehendem grammatikalischem und syntaktischem Verständnis kämpfen. AraLingBench verdeutlicht eine anhaltende Lücke zwischen hohen Punktzahlen in wissensbasierten Benchmarks und wahrer linguistischer Meisterschaft, indem er zeigt, dass viele Modelle durch Auswendiglernen oder Mustererkennung erfolgreich sind, anstatt durch authentisches Verständnis. Durch die Isolierung und Messung grundlegender linguistischer Fähigkeiten bietet AraLingBench ein diagnostisches Rahmenwerk für die Entwicklung arabischer LLMs. Der vollständige Evaluationscode ist öffentlich auf GitHub verfügbar.