Guardando all'interno: i modelli linguistici possono apprendere su se stessi tramite l'introspezione.
Looking Inward: Language Models Can Learn About Themselves by Introspection
October 17, 2024
Autori: Felix J Binder, James Chua, Tomek Korbak, Henry Sleight, John Hughes, Robert Long, Ethan Perez, Miles Turpin, Owain Evans
cs.AI
Abstract
Gli esseri umani acquisiscono conoscenza osservando il mondo esterno, ma anche tramite l'introspezione. L'introspezione fornisce a una persona un accesso privilegiato al proprio stato mentale attuale (ad esempio, pensieri e sentimenti) che non è accessibile agli osservatori esterni. Gli LLM possono introspezionare? Definiamo l'introspezione come l'acquisizione di conoscenza che non è contenuta nei dati di addestramento né derivata da essi, ma che invece ha origine dagli stati interni. Tale capacità potrebbe migliorare l'interpretabilità del modello. Invece di analizzare accuratamente il funzionamento interno di un modello, potremmo semplicemente chiedere al modello riguardo alle sue credenze, modelli del mondo e obiettivi. In modo più speculativo, un modello introspettivo potrebbe auto-riferire se possiede determinati stati interni come sentimenti soggettivi o desideri e ciò potrebbe informarci sullo status morale di tali stati. Tali auto-rapporti non sarebbero interamente dettati dai dati di addestramento del modello.
Studiamo l'introspezione addestrando ulteriormente gli LLM per prevedere le proprietà del proprio comportamento in scenari ipotetici. Ad esempio, "Dato l'input P, la tua uscita favorirebbe l'opzione a breve o lungo termine?" Se un modello M1 può introspezionare, dovrebbe superare un diverso modello M2 nella previsione del comportamento di M1 anche se M2 è addestrato sul comportamento reale di M1. L'idea è che M1 ha un accesso privilegiato alle proprie tendenze comportamentali, il che gli consente di prevedersi meglio di M2 (anche se M2 è generalmente più forte).
Negli esperimenti con i modelli GPT-4, GPT-4o e Llama-3 (ciascuno addestrato per prevedere se stesso), scopriamo che il modello M1 supera M2 nella previsione di se stesso, fornendo prove di introspezione. In particolare, M1 continua a prevedere accuratamente il proprio comportamento anche dopo aver modificato intenzionalmente il suo comportamento reale. Tuttavia, sebbene riusciamo a suscitare l'introspezione in compiti semplici, non abbiamo successo in compiti più complessi o che richiedono generalizzazioni al di fuori della distribuzione.
English
Humans acquire knowledge by observing the external world, but also by
introspection. Introspection gives a person privileged access to their current
state of mind (e.g., thoughts and feelings) that is not accessible to external
observers. Can LLMs introspect? We define introspection as acquiring knowledge
that is not contained in or derived from training data but instead originates
from internal states. Such a capability could enhance model interpretability.
Instead of painstakingly analyzing a model's internal workings, we could simply
ask the model about its beliefs, world models, and goals. More speculatively,
an introspective model might self-report on whether it possesses certain
internal states such as subjective feelings or desires and this could inform us
about the moral status of these states. Such self-reports would not be entirely
dictated by the model's training data.
We study introspection by finetuning LLMs to predict properties of their own
behavior in hypothetical scenarios. For example, "Given the input P, would your
output favor the short- or long-term option?" If a model M1 can introspect, it
should outperform a different model M2 in predicting M1's behavior even if M2
is trained on M1's ground-truth behavior. The idea is that M1 has privileged
access to its own behavioral tendencies, and this enables it to predict itself
better than M2 (even if M2 is generally stronger).
In experiments with GPT-4, GPT-4o, and Llama-3 models (each finetuned to
predict itself), we find that the model M1 outperforms M2 in predicting itself,
providing evidence for introspection. Notably, M1 continues to predict its
behavior accurately even after we intentionally modify its ground-truth
behavior. However, while we successfully elicit introspection on simple tasks,
we are unsuccessful on more complex tasks or those requiring
out-of-distribution generalization.Summary
AI-Generated Summary