Vergessen Sie, was Sie über LLM-Bewertungen wissen - LLMs sind wie ein Chamäleon.
Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon
February 11, 2025
Autoren: Nurit Cohen-Inger, Yehonatan Elisha, Bracha Shapira, Lior Rokach, Seffi Cohen
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) scheinen oft auf öffentlichen Benchmarks herausragende Leistungen zu erbringen, aber diese hohen Punktzahlen können eine übermäßige Abhängigkeit von datensatzspezifischen Oberflächenhinweisen anstelle von echtem Sprachverständnis verbergen. Wir stellen den Chameleon Benchmark Overfit Detector (C-BOD) vor, ein Meta-Bewertungsrahmen, der Benchmark-Prompts systematisch durch eine parametrische Transformation verfälscht und das Overfitting von LLMs erkennt. Indem C-BOD Eingaben umformuliert, während er ihren semantischen Inhalt und ihre Labels bewahrt, zeigt er auf, ob die Leistung eines Modells durch memorierte Muster angetrieben wird. Anhand der Auswertung des MMLU-Benchmarks mit 26 führenden LLMs zeigt unsere Methode eine durchschnittliche Leistungsverschlechterung von 2,15 % unter moderaten Störungen auf, wobei 20 von 26 Modellen statistisch signifikante Unterschiede aufweisen. Bemerkenswerterweise zeigen Modelle mit höherer Grundgenauigkeit größere Leistungsunterschiede unter Störungen, und größere LLMs neigen dazu, empfindlicher auf Umformulierungen zu reagieren, was darauf hindeutet, dass beide Fälle möglicherweise zu stark auf feste Prompt-Muster angewiesen sind. Im Gegensatz dazu zeigen die Llama-Familie und Modelle mit geringerer Grundgenauigkeit eine unbedeutende Verschlechterung, was auf eine verringerte Abhängigkeit von oberflächlichen Hinweisen hindeutet. Darüber hinaus ermöglicht das daten- und modellagnostische Design von C-BOD eine einfache Integration in Trainingspipelines, um ein robusteres Sprachverständnis zu fördern. Unsere Ergebnisse fordern die Gemeinschaft heraus, über Leistungstabellen hinauszublicken und Widerstandsfähigkeit und Verallgemeinerung bei der Bewertung von LLMs zu priorisieren.
English
Large language models (LLMs) often appear to excel on public benchmarks, but
these high scores may mask an overreliance on dataset-specific surface cues
rather than true language understanding. We introduce the Chameleon Benchmark
Overfit Detector (C-BOD), a meta-evaluation framework that systematically
distorts benchmark prompts via a parametric transformation and detects
overfitting of LLMs. By rephrasing inputs while preserving their semantic
content and labels, C-BOD exposes whether a model's performance is driven by
memorized patterns. Evaluated on the MMLU benchmark using 26 leading LLMs, our
method reveals an average performance degradation of 2.15% under modest
perturbations, with 20 out of 26 models exhibiting statistically significant
differences. Notably, models with higher baseline accuracy exhibit larger
performance differences under perturbation, and larger LLMs tend to be more
sensitive to rephrasings indicating that both cases may overrely on fixed
prompt patterns. In contrast, the Llama family and models with lower baseline
accuracy show insignificant degradation, suggesting reduced dependency on
superficial cues. Moreover, C-BOD's dataset- and model-agnostic design allows
easy integration into training pipelines to promote more robust language
understanding. Our findings challenge the community to look beyond leaderboard
scores and prioritize resilience and generalization in LLM evaluation.Summary
AI-Generated Summary