Забудьте о том, что вы знаете о оценках LLM - LLM подобны хамелеону.
Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon
February 11, 2025
Авторы: Nurit Cohen-Inger, Yehonatan Elisha, Bracha Shapira, Lior Rokach, Seffi Cohen
cs.AI
Аннотация
Большие языковые модели (LLM) часто проявляют выдающиеся результаты на общедоступных бенчмарках, но эти высокие оценки могут скрывать чрезмерную зависимость от специфических для набора данных признаков на поверхности, а не от истинного понимания языка. Мы представляем детектор переобучения на бенчмарке Хамелеон (C-BOD), фреймворк метаоценки, который систематически искажает запросы бенчмарка с помощью параметрического преобразования и обнаруживает переобучение LLM. Путем переформулирования входных данных, сохраняя их семантическое содержание и метки, C-BOD показывает, является ли производительность модели обусловлена запомненными шаблонами. Оцененный на бенчмарке MMLU с использованием 26 ведущих LLM, наш метод показывает среднее снижение производительности на 2,15% при небольших искажениях, причем 20 из 26 моделей демонстрируют статистически значимые различия. Замечательно, что модели с более высокой базовой точностью показывают более значительные различия в производительности при искажении, а более крупные LLM, как правило, более чувствительны к переформулировкам, что указывает на то, что в обоих случаях может наблюдаться чрезмерная зависимость от фиксированных шаблонов запросов. В отличие от этого, семейство Llama и модели с более низкой базовой точностью показывают незначительное снижение, что указывает на уменьшенную зависимость от поверхностных признаков. Более того, дизайн C-BOD, независимый от набора данных и модели, позволяет легко интегрировать его в процессы обучения для поощрения более надежного понимания языка. Наши результаты ставят перед сообществом задачу преодоления оценок в рейтингах и приоритизации устойчивости и обобщения в оценке LLM.
English
Large language models (LLMs) often appear to excel on public benchmarks, but
these high scores may mask an overreliance on dataset-specific surface cues
rather than true language understanding. We introduce the Chameleon Benchmark
Overfit Detector (C-BOD), a meta-evaluation framework that systematically
distorts benchmark prompts via a parametric transformation and detects
overfitting of LLMs. By rephrasing inputs while preserving their semantic
content and labels, C-BOD exposes whether a model's performance is driven by
memorized patterns. Evaluated on the MMLU benchmark using 26 leading LLMs, our
method reveals an average performance degradation of 2.15% under modest
perturbations, with 20 out of 26 models exhibiting statistically significant
differences. Notably, models with higher baseline accuracy exhibit larger
performance differences under perturbation, and larger LLMs tend to be more
sensitive to rephrasings indicating that both cases may overrely on fixed
prompt patterns. In contrast, the Llama family and models with lower baseline
accuracy show insignificant degradation, suggesting reduced dependency on
superficial cues. Moreover, C-BOD's dataset- and model-agnostic design allows
easy integration into training pipelines to promote more robust language
understanding. Our findings challenge the community to look beyond leaderboard
scores and prioritize resilience and generalization in LLM evaluation.Summary
AI-Generated Summary