Vergeet wat je weet over LLM-beoordelingen - LLM's zijn als een kameleon.
Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon
February 11, 2025
Auteurs: Nurit Cohen-Inger, Yehonatan Elisha, Bracha Shapira, Lior Rokach, Seffi Cohen
cs.AI
Samenvatting
Grote taalmodellen (LLM's) lijken vaak uit te blinken op openbare benchmarks, maar deze hoge scores kunnen een te grote afhankelijkheid van dataset-specifieke oppervlakteaanwijzingen maskeren in plaats van ware taalbegrip. We introduceren de Chameleon Benchmark Overfit Detector (C-BOD), een meta-evaluatiekader dat benchmark prompts systematisch verstoort via een parametrische transformatie en overpassing van LLM's detecteert. Door invoer te herformuleren terwijl de semantische inhoud en labels behouden blijven, onthult C-BOD of de prestatie van een model wordt aangedreven door gememoriseerde patronen. Geëvalueerd op de MMLU-benchmark met behulp van 26 toonaangevende LLM's, onthult onze methode een gemiddelde prestatievermindering van 2,15% onder bescheiden verstoringen, waarbij 20 van de 26 modellen statistisch significante verschillen vertonen. Opmerkelijk is dat modellen met een hogere basale nauwkeurigheid grotere prestatieverschillen vertonen onder verstoring, en grotere LLM's lijken gevoeliger te zijn voor herformuleringen, wat aangeeft dat beide gevallen mogelijk te veel vertrouwen op vaste promptpatronen. In tegenstelling hiermee tonen de Llama-familie en modellen met lagere basale nauwkeurigheid onbeduidende degradatie, wat wijst op verminderde afhankelijkheid van oppervlakkige aanwijzingen. Bovendien maakt het dataset- en modelagnostische ontwerp van C-BOD een eenvoudige integratie in trainingspipelines mogelijk om een robuuster taalbegrip te bevorderen. Onze bevindingen dagen de gemeenschap uit om verder te kijken dan de ranglijstscores en veerkracht en generalisatie te prioriteren bij de evaluatie van LLM's.
English
Large language models (LLMs) often appear to excel on public benchmarks, but
these high scores may mask an overreliance on dataset-specific surface cues
rather than true language understanding. We introduce the Chameleon Benchmark
Overfit Detector (C-BOD), a meta-evaluation framework that systematically
distorts benchmark prompts via a parametric transformation and detects
overfitting of LLMs. By rephrasing inputs while preserving their semantic
content and labels, C-BOD exposes whether a model's performance is driven by
memorized patterns. Evaluated on the MMLU benchmark using 26 leading LLMs, our
method reveals an average performance degradation of 2.15% under modest
perturbations, with 20 out of 26 models exhibiting statistically significant
differences. Notably, models with higher baseline accuracy exhibit larger
performance differences under perturbation, and larger LLMs tend to be more
sensitive to rephrasings indicating that both cases may overrely on fixed
prompt patterns. In contrast, the Llama family and models with lower baseline
accuracy show insignificant degradation, suggesting reduced dependency on
superficial cues. Moreover, C-BOD's dataset- and model-agnostic design allows
easy integration into training pipelines to promote more robust language
understanding. Our findings challenge the community to look beyond leaderboard
scores and prioritize resilience and generalization in LLM evaluation.