ChatPaper.aiChatPaper

Olvídate de lo que sabes sobre las evaluaciones de LLM: los LLM son como un camaleón.

Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon

February 11, 2025
Autores: Nurit Cohen-Inger, Yehonatan Elisha, Bracha Shapira, Lior Rokach, Seffi Cohen
cs.AI

Resumen

Los modelos de lenguaje grandes (LLMs) a menudo parecen destacarse en pruebas públicas, pero estas puntuaciones altas pueden ocultar una sobrerreliancia en señales superficiales específicas del conjunto de datos en lugar de un verdadero entendimiento del lenguaje. Presentamos el Detector de Sobreajuste de Benchmark Camaleón (C-BOD), un marco de metaevaluación que distorsiona sistemáticamente las indicaciones de las pruebas de referencia a través de una transformación paramétrica y detecta el sobreajuste de los LLMs. Al reformular las entradas mientras se preserva su contenido semántico y etiquetas, C-BOD expone si el rendimiento de un modelo está impulsado por patrones memorizados. Evaluado en el benchmark MMLU utilizando 26 LLMs líderes, nuestro método revela una degradación promedio del rendimiento del 2.15% bajo perturbaciones moderadas, con 20 de 26 modelos mostrando diferencias estadísticamente significativas. Notablemente, los modelos con una precisión de referencia más alta presentan mayores diferencias de rendimiento bajo perturbación, y los LLMs más grandes tienden a ser más sensibles a las reformulaciones, lo que indica que ambos casos pueden depender en exceso de patrones fijos en las indicaciones. En contraste, la familia Llama y los modelos con una precisión de referencia más baja muestran una degradación insignificante, lo que sugiere una dependencia reducida de señales superficiales. Además, el diseño agnóstico al conjunto de datos y al modelo de C-BOD permite una integración fácil en los flujos de entrenamiento para promover un entendimiento del lenguaje más robusto. Nuestros hallazgos desafían a la comunidad a mirar más allá de las puntuaciones en las tablas de clasificación y priorizar la resistencia y la generalización en la evaluación de LLMs.
English
Large language models (LLMs) often appear to excel on public benchmarks, but these high scores may mask an overreliance on dataset-specific surface cues rather than true language understanding. We introduce the Chameleon Benchmark Overfit Detector (C-BOD), a meta-evaluation framework that systematically distorts benchmark prompts via a parametric transformation and detects overfitting of LLMs. By rephrasing inputs while preserving their semantic content and labels, C-BOD exposes whether a model's performance is driven by memorized patterns. Evaluated on the MMLU benchmark using 26 leading LLMs, our method reveals an average performance degradation of 2.15% under modest perturbations, with 20 out of 26 models exhibiting statistically significant differences. Notably, models with higher baseline accuracy exhibit larger performance differences under perturbation, and larger LLMs tend to be more sensitive to rephrasings indicating that both cases may overrely on fixed prompt patterns. In contrast, the Llama family and models with lower baseline accuracy show insignificant degradation, suggesting reduced dependency on superficial cues. Moreover, C-BOD's dataset- and model-agnostic design allows easy integration into training pipelines to promote more robust language understanding. Our findings challenge the community to look beyond leaderboard scores and prioritize resilience and generalization in LLM evaluation.
PDF113February 12, 2025