Oubliez ce que vous savez sur les évaluations des LLM - les LLM sont comme un caméléon.

papers.abstract

Les grands modèles de langage (LLM) semblent souvent exceller sur les benchmarks publics, mais ces scores élevés peuvent masquer une surdépendance aux indices superficiels spécifiques aux ensembles de données plutôt qu'à une véritable compréhension du langage. Nous introduisons le Détecteur de Surajustement au Benchmark Caméléon (C-BOD), un cadre de méta-évaluation qui déforme systématiquement les invitations des benchmarks via une transformation paramétrique et détecte le surajustement des LLM. En reformulant les entrées tout en préservant leur contenu sémantique et leurs étiquettes, C-BOD expose si la performance d'un modèle est basée sur des schémas mémorisés. Évaluée sur le benchmark MMLU en utilisant 26 principaux LLM, notre méthode révèle une dégradation moyenne des performances de 2,15% sous des perturbations modérées, avec 20 des 26 modèles présentant des différences statistiquement significatives. Notamment, les modèles avec une précision de base plus élevée montrent des différences de performances plus importantes sous perturbation, et les LLM plus grands ont tendance à être plus sensibles aux reformulations, indiquant que dans les deux cas, ils peuvent trop dépendre de schémas d'invitation fixes. En revanche, la famille Llama et les modèles avec une précision de base plus faible montrent une dégradation insignifiante, suggérant une dépendance réduite aux indices superficiels. De plus, la conception agnostique aux ensembles de données et aux modèles de C-BOD permet une intégration facile dans les pipelines d'entraînement pour promouvoir une compréhension du langage plus robuste. Nos résultats mettent au défi la communauté de regarder au-delà des scores des classements et de prioriser la résilience et la généralisation dans l'évaluation des LLM.

English

Large language models (LLMs) often appear to excel on public benchmarks, but these high scores may mask an overreliance on dataset-specific surface cues rather than true language understanding. We introduce the Chameleon Benchmark Overfit Detector (C-BOD), a meta-evaluation framework that systematically distorts benchmark prompts via a parametric transformation and detects overfitting of LLMs. By rephrasing inputs while preserving their semantic content and labels, C-BOD exposes whether a model's performance is driven by memorized patterns. Evaluated on the MMLU benchmark using 26 leading LLMs, our method reveals an average performance degradation of 2.15% under modest perturbations, with 20 out of 26 models exhibiting statistically significant differences. Notably, models with higher baseline accuracy exhibit larger performance differences under perturbation, and larger LLMs tend to be more sensitive to rephrasings indicating that both cases may overrely on fixed prompt patterns. In contrast, the Llama family and models with lower baseline accuracy show insignificant degradation, suggesting reduced dependency on superficial cues. Moreover, C-BOD's dataset- and model-agnostic design allows easy integration into training pipelines to promote more robust language understanding. Our findings challenge the community to look beyond leaderboard scores and prioritize resilience and generalization in LLM evaluation.

Oubliez ce que vous savez sur les évaluations des LLM - les LLM sont comme un caméléon.

Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon

papers.abstract

Support