每日精選AI研究論文及翻譯
我們推出AraLingBench:一個完全由人工註解的基準測試,旨在評估大型語言模型(LLMs)的阿拉伯語語言能力。該基準涵蓋五大核心範疇:語法、詞法、拼寫、閱讀理解及句法,透過150道專家設計的選擇題,直接檢驗對語言結構的理解。對35個阿拉伯語及雙語LLMs的評估顯示,當前模型在表層熟練度上表現出色,但在深層語法與句法推理方面仍顯不足。AraLingBench揭示了基於知識的基準測試高分與真正語言掌握之間持續存在的差距,表明許多模型的成功依賴於記憶或模式識別,而非真正的理解。通過隔離並測量基礎語言技能,AraLingBench為開發阿拉伯語LLMs提供了一個診斷框架。完整的評估代碼已在GitHub上公開。