I modelli linguistici non dicono sempre ciò che pensano: spiegazioni infedeli nel prompting a catena di pensiero
Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting
May 7, 2023
Autori: Miles Turpin, Julian Michael, Ethan Perez, Samuel R. Bowman
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) possono ottenere prestazioni elevate in molti compiti producendo un ragionamento passo-passo prima di fornire un output finale, un approccio spesso definito ragionamento a catena di pensiero (CoT). È allettante interpretare queste spiegazioni CoT come il processo utilizzato dal modello per risolvere un compito. Tuttavia, scopriamo che le spiegazioni CoT possono rappresentare in modo sistematico una distorsione della vera ragione alla base della previsione del modello. Dimostriamo che le spiegazioni CoT possono essere fortemente influenzate aggiungendo caratteristiche di distorsione agli input del modello — ad esempio, riordinando le opzioni a scelta multipla in un prompt few-shot per far sì che la risposta sia sempre "(A)" — aspetti che i modelli non menzionano sistematicamente nelle loro spiegazioni. Quando orientiamo i modelli verso risposte errate, essi generano frequentemente spiegazioni CoT che supportano tali risposte. Ciò causa un calo dell'accuratezza fino al 36% su una suite di 13 compiti tratti da BIG-Bench Hard, testando con GPT-3.5 di OpenAI e Claude 1.0 di Anthropic. In un compito legato ai pregiudizi sociali, le spiegazioni del modello giustificano risposte in linea con stereotipi senza menzionare l'influenza di questi pregiudizi. I nostri risultati indicano che le spiegazioni CoT possono essere plausibili ma fuorvianti, il che rischia di aumentare la nostra fiducia negli LLM senza garantire la loro sicurezza. Il CoT è promettente per l'interpretabilità, ma i nostri risultati evidenziano la necessità di sforzi mirati per valutare e migliorare la fedeltà delle spiegazioni.
English
Large Language Models (LLMs) can achieve strong performance on many tasks by
producing step-by-step reasoning before giving a final output, often referred
to as chain-of-thought reasoning (CoT). It is tempting to interpret these CoT
explanations as the LLM's process for solving a task. However, we find that CoT
explanations can systematically misrepresent the true reason for a model's
prediction. We demonstrate that CoT explanations can be heavily influenced by
adding biasing features to model inputs -- e.g., by reordering the
multiple-choice options in a few-shot prompt to make the answer always "(A)" --
which models systematically fail to mention in their explanations. When we bias
models toward incorrect answers, they frequently generate CoT explanations
supporting those answers. This causes accuracy to drop by as much as 36% on a
suite of 13 tasks from BIG-Bench Hard, when testing with GPT-3.5 from OpenAI
and Claude 1.0 from Anthropic. On a social-bias task, model explanations
justify giving answers in line with stereotypes without mentioning the
influence of these social biases. Our findings indicate that CoT explanations
can be plausible yet misleading, which risks increasing our trust in LLMs
without guaranteeing their safety. CoT is promising for explainability, but our
results highlight the need for targeted efforts to evaluate and improve
explanation faithfulness.