Dimentica ciò che sai sulle valutazioni dei LLM - i LLM sono come un camaleonte.
Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon
February 11, 2025
Autori: Nurit Cohen-Inger, Yehonatan Elisha, Bracha Shapira, Lior Rokach, Seffi Cohen
cs.AI
Abstract
I grandi modelli linguistici (LLM) spesso sembrano eccellere nei benchmark pubblici, ma questi punteggi elevati possono nascondere una eccessiva dipendenza da segnali superficiali specifici del dataset piuttosto che da una vera comprensione del linguaggio. Presentiamo il Rilevatore di Sovraadattamento al Benchmark Camaleonte (C-BOD), un framework di meta-valutazione che distorce sistematicamente le richieste del benchmark tramite una trasformazione parametrica e rileva il sovraadattamento dei LLM. Riformulando gli input pur preservando il loro contenuto semantico e le etichette, C-BOD espone se le prestazioni di un modello sono guidate da pattern memorizzati. Valutato sul benchmark MMLU utilizzando 26 principali LLM, il nostro metodo rivela una degradazione media delle prestazioni del 2,15% sotto modesti perturbamenti, con 20 modelli su 26 che mostrano differenze statisticamente significative. In particolare, i modelli con una precisione di base più elevata mostrano differenze di prestazioni più ampie sotto perturbazione, e i LLM più grandi tendono ad essere più sensibili alle riformulazioni, indicando che entrambi i casi potrebbero fare eccessivo affidamento su pattern fissi delle richieste. Al contrario, la famiglia Llama e i modelli con una precisione di base più bassa mostrano una degradazione insignificante, suggerendo una minore dipendenza da segnali superficiali. Inoltre, il design del C-BOD, indipendente dal dataset e dal modello, consente un'integrazione facile nei flussi di addestramento per promuovere una comprensione del linguaggio più robusta. Le nostre scoperte sfidano la comunità a guardare oltre i punteggi della classifica e a dare priorità alla resilienza e alla generalizzazione nella valutazione dei LLM.
English
Large language models (LLMs) often appear to excel on public benchmarks, but
these high scores may mask an overreliance on dataset-specific surface cues
rather than true language understanding. We introduce the Chameleon Benchmark
Overfit Detector (C-BOD), a meta-evaluation framework that systematically
distorts benchmark prompts via a parametric transformation and detects
overfitting of LLMs. By rephrasing inputs while preserving their semantic
content and labels, C-BOD exposes whether a model's performance is driven by
memorized patterns. Evaluated on the MMLU benchmark using 26 leading LLMs, our
method reveals an average performance degradation of 2.15% under modest
perturbations, with 20 out of 26 models exhibiting statistically significant
differences. Notably, models with higher baseline accuracy exhibit larger
performance differences under perturbation, and larger LLMs tend to be more
sensitive to rephrasings indicating that both cases may overrely on fixed
prompt patterns. In contrast, the Llama family and models with lower baseline
accuracy show insignificant degradation, suggesting reduced dependency on
superficial cues. Moreover, C-BOD's dataset- and model-agnostic design allows
easy integration into training pipelines to promote more robust language
understanding. Our findings challenge the community to look beyond leaderboard
scores and prioritize resilience and generalization in LLM evaluation.Summary
AI-Generated Summary