Esqueça o que você sabe sobre avaliações de LLMs - LLMs são como um camaleão.
Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon
February 11, 2025
Autores: Nurit Cohen-Inger, Yehonatan Elisha, Bracha Shapira, Lior Rokach, Seffi Cohen
cs.AI
Resumo
Grandes modelos de linguagem (LLMs) frequentemente parecem se destacar em benchmarks públicos, mas essas altas pontuações podem mascarar uma superdependência em pistas superficiais específicas do conjunto de dados, em vez de um verdadeiro entendimento da linguagem. Apresentamos o Detector de Overfitting do Benchmark Camaleão (C-BOD), um framework de meta-avaliação que distorce sistematicamente prompts de benchmarks por meio de uma transformação paramétrica e detecta o overfitting de LLMs. Ao reformular entradas enquanto preserva seu conteúdo semântico e rótulos, o C-BOD expõe se o desempenho de um modelo é impulsionado por padrões memorizados. Avaliado no benchmark MMLU usando 26 principais LLMs, nosso método revela uma degradação média de desempenho de 2,15% sob perturbações modestas, com 20 dos 26 modelos exibindo diferenças estatisticamente significativas. Notavelmente, modelos com maior acurácia de referência exibem maiores diferenças de desempenho sob perturbação, e LLMs maiores tendem a ser mais sensíveis a reformulações, indicando que ambos os casos podem depender excessivamente de padrões fixos de prompts. Em contraste, a família Llama e modelos com menor acurácia de referência mostram degradação insignificante, sugerindo uma dependência reduzida em pistas superficiais. Além disso, o design do C-BOD, que é agnóstico em relação a conjuntos de dados e modelos, permite uma integração fácil em pipelines de treinamento para promover um entendimento mais robusto da linguagem. Nossas descobertas desafiam a comunidade a olhar além das pontuações do ranking e priorizar a resiliência e generalização na avaliação de LLMs.
English
Large language models (LLMs) often appear to excel on public benchmarks, but
these high scores may mask an overreliance on dataset-specific surface cues
rather than true language understanding. We introduce the Chameleon Benchmark
Overfit Detector (C-BOD), a meta-evaluation framework that systematically
distorts benchmark prompts via a parametric transformation and detects
overfitting of LLMs. By rephrasing inputs while preserving their semantic
content and labels, C-BOD exposes whether a model's performance is driven by
memorized patterns. Evaluated on the MMLU benchmark using 26 leading LLMs, our
method reveals an average performance degradation of 2.15% under modest
perturbations, with 20 out of 26 models exhibiting statistically significant
differences. Notably, models with higher baseline accuracy exhibit larger
performance differences under perturbation, and larger LLMs tend to be more
sensitive to rephrasings indicating that both cases may overrely on fixed
prompt patterns. In contrast, the Llama family and models with lower baseline
accuracy show insignificant degradation, suggesting reduced dependency on
superficial cues. Moreover, C-BOD's dataset- and model-agnostic design allows
easy integration into training pipelines to promote more robust language
understanding. Our findings challenge the community to look beyond leaderboard
scores and prioritize resilience and generalization in LLM evaluation.Summary
AI-Generated Summary