ChatPaper.aiChatPaper

Stabilire una Valutazione Affidabile dei Modelli Linguistici di Grande Dimensione tramite l'Analisi dei Neuroni di Scorciatoia

Establishing Trustworthy LLM Evaluation via Shortcut Neuron Analysis

June 4, 2025
Autori: Kejian Zhu, Shangqing Tu, Zhuoran Jin, Lei Hou, Juanzi Li, Jun Zhao
cs.AI

Abstract

Lo sviluppo di modelli linguistici di grandi dimensioni (LLM) dipende da una valutazione affidabile. Tuttavia, la maggior parte delle valutazioni attuali si basa su benchmark pubblici, che sono soggetti a problemi di contaminazione dei dati che compromettono significativamente l'equità. Ricerche precedenti si sono concentrate sulla costruzione di benchmark dinamici per affrontare la contaminazione. Tuttavia, la continua creazione di nuovi benchmark è costosa e ciclica. In questo lavoro, miriamo a contrastare la contaminazione analizzando i meccanismi stessi dei modelli contaminati. Attraverso i nostri esperimenti, scopriamo che la sovrastima dei modelli contaminati è probabilmente dovuta ai parametri che acquisiscono soluzioni di scorciatoia durante l'addestramento. Proponiamo ulteriormente un metodo innovativo per identificare i neuroni di scorciatoia attraverso analisi comparative e causali. Sulla base di ciò, introduciamo un metodo di valutazione chiamato "shortcut neuron patching" per sopprimere i neuroni di scorciatoia. Gli esperimenti convalidano l'efficacia del nostro approccio nel mitigare la contaminazione. Inoltre, i nostri risultati di valutazione mostrano una forte correlazione lineare con MixEval, un benchmark affidabile rilasciato di recente, raggiungendo un coefficiente di Spearman (rho) superiore a 0,95. Questa elevata correlazione indica che il nostro metodo rivela fedelmente le vere capacità dei modelli ed è affidabile. Condividiamo ulteriori esperimenti per dimostrare la generalizzabilità del nostro metodo su vari benchmark e impostazioni di iperparametri. Codice: https://github.com/GaryStack/Trustworthy-Evaluation
English
The development of large language models (LLMs) depends on trustworthy evaluation. However, most current evaluations rely on public benchmarks, which are prone to data contamination issues that significantly compromise fairness. Previous researches have focused on constructing dynamic benchmarks to address contamination. However, continuously building new benchmarks is costly and cyclical. In this work, we aim to tackle contamination by analyzing the mechanisms of contaminated models themselves. Through our experiments, we discover that the overestimation of contaminated models is likely due to parameters acquiring shortcut solutions in training. We further propose a novel method for identifying shortcut neurons through comparative and causal analysis. Building on this, we introduce an evaluation method called shortcut neuron patching to suppress shortcut neurons. Experiments validate the effectiveness of our approach in mitigating contamination. Additionally, our evaluation results exhibit a strong linear correlation with MixEval, a recently released trustworthy benchmark, achieving a Spearman coefficient (rho) exceeding 0.95. This high correlation indicates that our method closely reveals true capabilities of the models and is trustworthy. We conduct further experiments to demonstrate the generalizability of our method across various benchmarks and hyperparameter settings. Code: https://github.com/GaryStack/Trustworthy-Evaluation
PDF272June 5, 2025