Oubliez ce que vous savez sur les évaluations des LLM - les LLM sont comme un caméléon.
Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon
February 11, 2025
Auteurs: Nurit Cohen-Inger, Yehonatan Elisha, Bracha Shapira, Lior Rokach, Seffi Cohen
cs.AI
Résumé
Les grands modèles de langage (LLM) semblent souvent exceller sur les benchmarks publics, mais ces scores élevés peuvent masquer une surdépendance aux indices superficiels spécifiques aux ensembles de données plutôt qu'à une véritable compréhension du langage. Nous introduisons le Détecteur de Surajustement au Benchmark Caméléon (C-BOD), un cadre de méta-évaluation qui déforme systématiquement les invitations des benchmarks via une transformation paramétrique et détecte le surajustement des LLM. En reformulant les entrées tout en préservant leur contenu sémantique et leurs étiquettes, C-BOD expose si la performance d'un modèle est basée sur des schémas mémorisés. Évaluée sur le benchmark MMLU en utilisant 26 principaux LLM, notre méthode révèle une dégradation moyenne des performances de 2,15% sous des perturbations modérées, avec 20 des 26 modèles présentant des différences statistiquement significatives. Notamment, les modèles avec une précision de base plus élevée montrent des différences de performances plus importantes sous perturbation, et les LLM plus grands ont tendance à être plus sensibles aux reformulations, indiquant que dans les deux cas, ils peuvent trop dépendre de schémas d'invitation fixes. En revanche, la famille Llama et les modèles avec une précision de base plus faible montrent une dégradation insignifiante, suggérant une dépendance réduite aux indices superficiels. De plus, la conception agnostique aux ensembles de données et aux modèles de C-BOD permet une intégration facile dans les pipelines d'entraînement pour promouvoir une compréhension du langage plus robuste. Nos résultats mettent au défi la communauté de regarder au-delà des scores des classements et de prioriser la résilience et la généralisation dans l'évaluation des LLM.
English
Large language models (LLMs) often appear to excel on public benchmarks, but
these high scores may mask an overreliance on dataset-specific surface cues
rather than true language understanding. We introduce the Chameleon Benchmark
Overfit Detector (C-BOD), a meta-evaluation framework that systematically
distorts benchmark prompts via a parametric transformation and detects
overfitting of LLMs. By rephrasing inputs while preserving their semantic
content and labels, C-BOD exposes whether a model's performance is driven by
memorized patterns. Evaluated on the MMLU benchmark using 26 leading LLMs, our
method reveals an average performance degradation of 2.15% under modest
perturbations, with 20 out of 26 models exhibiting statistically significant
differences. Notably, models with higher baseline accuracy exhibit larger
performance differences under perturbation, and larger LLMs tend to be more
sensitive to rephrasings indicating that both cases may overrely on fixed
prompt patterns. In contrast, the Llama family and models with lower baseline
accuracy show insignificant degradation, suggesting reduced dependency on
superficial cues. Moreover, C-BOD's dataset- and model-agnostic design allows
easy integration into training pipelines to promote more robust language
understanding. Our findings challenge the community to look beyond leaderboard
scores and prioritize resilience and generalization in LLM evaluation.Summary
AI-Generated Summary