Olvídate de lo que sabes sobre las evaluaciones de LLM: los LLM son como un camaleón.
Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon
February 11, 2025
Autores: Nurit Cohen-Inger, Yehonatan Elisha, Bracha Shapira, Lior Rokach, Seffi Cohen
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs) a menudo parecen destacarse en pruebas públicas, pero estas puntuaciones altas pueden ocultar una sobrerreliancia en señales superficiales específicas del conjunto de datos en lugar de un verdadero entendimiento del lenguaje. Presentamos el Detector de Sobreajuste de Benchmark Camaleón (C-BOD), un marco de metaevaluación que distorsiona sistemáticamente las indicaciones de las pruebas de referencia a través de una transformación paramétrica y detecta el sobreajuste de los LLMs. Al reformular las entradas mientras se preserva su contenido semántico y etiquetas, C-BOD expone si el rendimiento de un modelo está impulsado por patrones memorizados. Evaluado en el benchmark MMLU utilizando 26 LLMs líderes, nuestro método revela una degradación promedio del rendimiento del 2.15% bajo perturbaciones moderadas, con 20 de 26 modelos mostrando diferencias estadísticamente significativas. Notablemente, los modelos con una precisión de referencia más alta presentan mayores diferencias de rendimiento bajo perturbación, y los LLMs más grandes tienden a ser más sensibles a las reformulaciones, lo que indica que ambos casos pueden depender en exceso de patrones fijos en las indicaciones. En contraste, la familia Llama y los modelos con una precisión de referencia más baja muestran una degradación insignificante, lo que sugiere una dependencia reducida de señales superficiales. Además, el diseño agnóstico al conjunto de datos y al modelo de C-BOD permite una integración fácil en los flujos de entrenamiento para promover un entendimiento del lenguaje más robusto. Nuestros hallazgos desafían a la comunidad a mirar más allá de las puntuaciones en las tablas de clasificación y priorizar la resistencia y la generalización en la evaluación de LLMs.
English
Large language models (LLMs) often appear to excel on public benchmarks, but
these high scores may mask an overreliance on dataset-specific surface cues
rather than true language understanding. We introduce the Chameleon Benchmark
Overfit Detector (C-BOD), a meta-evaluation framework that systematically
distorts benchmark prompts via a parametric transformation and detects
overfitting of LLMs. By rephrasing inputs while preserving their semantic
content and labels, C-BOD exposes whether a model's performance is driven by
memorized patterns. Evaluated on the MMLU benchmark using 26 leading LLMs, our
method reveals an average performance degradation of 2.15% under modest
perturbations, with 20 out of 26 models exhibiting statistically significant
differences. Notably, models with higher baseline accuracy exhibit larger
performance differences under perturbation, and larger LLMs tend to be more
sensitive to rephrasings indicating that both cases may overrely on fixed
prompt patterns. In contrast, the Llama family and models with lower baseline
accuracy show insignificant degradation, suggesting reduced dependency on
superficial cues. Moreover, C-BOD's dataset- and model-agnostic design allows
easy integration into training pipelines to promote more robust language
understanding. Our findings challenge the community to look beyond leaderboard
scores and prioritize resilience and generalization in LLM evaluation.