Attribuzione Contrastiva in Contesti Reali: Un'Analisi di Interpretabilità dei Fallimenti degli LLM su Benchmark Realistici

Abstract

Gli strumenti di interpretabilità sono sempre più utilizzati per analizzare i fallimenti dei Large Language Model (LLM), tuttavia i lavori precedenti si concentrano prevalentemente su prompt brevi o contesti semplificati, lasciando inesplorato il loro comportamento sui benchmark comunemente utilizzati. Per colmare questa lacuna, studiamo l'attribuzione contrastiva basata su LRP come strumento pratico per analizzare i fallimenti degli LLM in contesti realistici. Formuliamo l'analisi dei fallimenti come attribuzione contrastiva, attribuendo la differenza di logit tra un token di output errato e un'alternativa corretta ai token di input e agli stati interni del modello, e introduciamo un'estensione efficiente che consente la costruzione di grafi di attribuzione cross-layer per input a contesto lungo. Utilizzando questo framework, conduciamo uno studio empirico sistematico su diversi benchmark, confrontando i pattern di attribuzione tra dataset, dimensioni del modello e checkpoint di addestramento. I nostri risultati mostrano che questa attribuzione contrastiva a livello di token può produrre segnali informativi in alcuni casi di fallimento, ma non è universalmente applicabile, evidenziandone sia l'utilità che i limiti per un'analisi realistica dei fallimenti degli LLM. Il nostro codice è disponibile all'indirizzo: https://aka.ms/Debug-XAI.

English

Interpretability tools are increasingly used to analyze failures of Large Language Models (LLMs), yet prior work largely focuses on short prompts or toy settings, leaving their behavior on commonly used benchmarks underexplored. To address this gap, we study contrastive, LRP-based attribution as a practical tool for analyzing LLM failures in realistic settings. We formulate failure analysis as contrastive attribution, attributing the logit difference between an incorrect output token and a correct alternative to input tokens and internal model states, and introduce an efficient extension that enables construction of cross-layer attribution graphs for long-context inputs. Using this framework, we conduct a systematic empirical study across benchmarks, comparing attribution patterns across datasets, model sizes, and training checkpoints. Our results show that this token-level contrastive attribution can yield informative signals in some failure cases, but is not universally applicable, highlighting both its utility and its limitations for realistic LLM failure analysis. Our code is available at: https://aka.ms/Debug-XAI.

Attribuzione Contrastiva in Contesti Reali: Un'Analisi di Interpretabilità dei Fallimenti degli LLM su Benchmark Realistici

Contrastive Attribution in the Wild: An Interpretability Analysis of LLM Failures on Realistic Benchmarks

Abstract

Support