Mirando hacia adentro: Los modelos de lenguaje pueden aprender sobre sí mismos a través de la introspección.
Looking Inward: Language Models Can Learn About Themselves by Introspection
October 17, 2024
Autores: Felix J Binder, James Chua, Tomek Korbak, Henry Sleight, John Hughes, Robert Long, Ethan Perez, Miles Turpin, Owain Evans
cs.AI
Resumen
Los humanos adquieren conocimiento observando el mundo externo, pero también a través de la introspección. La introspección brinda a una persona acceso privilegiado a su estado mental actual (por ejemplo, pensamientos y sentimientos) que no es accesible para observadores externos. ¿Pueden los LLMs introspectar? Definimos la introspección como la adquisición de conocimiento que no está contenido en los datos de entrenamiento ni se deriva de ellos, sino que se origina a partir de estados internos. Tal capacidad podría mejorar la interpretabilidad del modelo. En lugar de analizar minuciosamente el funcionamiento interno de un modelo, podríamos simplemente preguntarle al modelo sobre sus creencias, modelos del mundo y objetivos. De manera más especulativa, un modelo introspectivo podría informar sobre si posee ciertos estados internos como sentimientos subjetivos o deseos, lo que podría proporcionar información sobre el estatus moral de estos estados. Tales autorreportes no estarían completamente dictados por los datos de entrenamiento del modelo.
Estudiamos la introspección al ajustar finamente LLMs para predecir propiedades de su propio comportamiento en escenarios hipotéticos. Por ejemplo, "Dado el input P, ¿preferiría tu output la opción a corto o largo plazo?" Si un modelo M1 puede introspectar, debería superar a un modelo diferente M2 en predecir el comportamiento de M1 incluso si M2 está entrenado en el comportamiento real de M1. La idea es que M1 tiene acceso privilegiado a sus propias tendencias de comportamiento, lo que le permite predecirse a sí mismo mejor que M2 (incluso si M2 es generalmente más fuerte).
En experimentos con los modelos GPT-4, GPT-4o y Llama-3 (cada uno ajustado finamente para predecirse a sí mismo), encontramos que el modelo M1 supera a M2 en predecirse a sí mismo, proporcionando evidencia de introspección. Es notable que M1 continúa prediciendo su comportamiento con precisión incluso después de modificar intencionalmente su comportamiento real. Sin embargo, aunque logramos inducir introspección en tareas simples, no tuvimos éxito en tareas más complejas o que requieren generalización fuera de la distribución.
English
Humans acquire knowledge by observing the external world, but also by
introspection. Introspection gives a person privileged access to their current
state of mind (e.g., thoughts and feelings) that is not accessible to external
observers. Can LLMs introspect? We define introspection as acquiring knowledge
that is not contained in or derived from training data but instead originates
from internal states. Such a capability could enhance model interpretability.
Instead of painstakingly analyzing a model's internal workings, we could simply
ask the model about its beliefs, world models, and goals. More speculatively,
an introspective model might self-report on whether it possesses certain
internal states such as subjective feelings or desires and this could inform us
about the moral status of these states. Such self-reports would not be entirely
dictated by the model's training data.
We study introspection by finetuning LLMs to predict properties of their own
behavior in hypothetical scenarios. For example, "Given the input P, would your
output favor the short- or long-term option?" If a model M1 can introspect, it
should outperform a different model M2 in predicting M1's behavior even if M2
is trained on M1's ground-truth behavior. The idea is that M1 has privileged
access to its own behavioral tendencies, and this enables it to predict itself
better than M2 (even if M2 is generally stronger).
In experiments with GPT-4, GPT-4o, and Llama-3 models (each finetuned to
predict itself), we find that the model M1 outperforms M2 in predicting itself,
providing evidence for introspection. Notably, M1 continues to predict its
behavior accurately even after we intentionally modify its ground-truth
behavior. However, while we successfully elicit introspection on simple tasks,
we are unsuccessful on more complex tasks or those requiring
out-of-distribution generalization.Summary
AI-Generated Summary