ChatPaper.aiChatPaper

Olhando para Dentro: Modelos de Linguagem Podem Aprender Sobre Eles Mesmos por Meio de Introspecção

Looking Inward: Language Models Can Learn About Themselves by Introspection

October 17, 2024
Autores: Felix J Binder, James Chua, Tomek Korbak, Henry Sleight, John Hughes, Robert Long, Ethan Perez, Miles Turpin, Owain Evans
cs.AI

Resumo

Os humanos adquirem conhecimento observando o mundo externo, mas também por meio da introspecção. A introspecção proporciona a uma pessoa acesso privilegiado ao seu estado mental atual (por exemplo, pensamentos e sentimentos) que não é acessível a observadores externos. Será que os LLMs podem introspectar? Definimos introspecção como a aquisição de conhecimento que não está contido nos dados de treinamento nem é derivado deles, mas sim que se origina de estados internos. Essa capacidade poderia aprimorar a interpretabilidade do modelo. Em vez de analisar minuciosamente o funcionamento interno de um modelo, poderíamos simplesmente perguntar ao modelo sobre suas crenças, modelos do mundo e objetivos. De forma mais especulativa, um modelo introspectivo poderia relatar se possui certos estados internos, como sentimentos subjetivos ou desejos, e isso poderia nos informar sobre o status moral desses estados. Tais autorrelatos não seriam totalmente ditados pelos dados de treinamento do modelo. Estudamos a introspecção ao ajustar finamente os LLMs para prever propriedades de seu próprio comportamento em cenários hipotéticos. Por exemplo, "Dado o input P, sua saída favoreceria a opção de curto ou longo prazo?" Se um modelo M1 puder introspectar, ele deverá superar um modelo diferente M2 na previsão do comportamento de M1, mesmo que M2 seja treinado no comportamento verdadeiro de M1. A ideia é que M1 tem acesso privilegiado às suas próprias tendências comportamentais, o que lhe permite se prever melhor do que M2 (mesmo que M2 seja geralmente mais forte). Em experimentos com os modelos GPT-4, GPT-4o e Llama-3 (cada um ajustado para prever a si mesmo), descobrimos que o modelo M1 supera M2 na previsão de si mesmo, fornecendo evidências de introspecção. Notavelmente, M1 continua a prever seu comportamento com precisão mesmo depois de modificarmos intencionalmente seu comportamento verdadeiro. No entanto, embora tenhamos obtido sucesso em elicitar introspecção em tarefas simples, não fomos bem-sucedidos em tarefas mais complexas ou que exigem generalização fora da distribuição.
English
Humans acquire knowledge by observing the external world, but also by introspection. Introspection gives a person privileged access to their current state of mind (e.g., thoughts and feelings) that is not accessible to external observers. Can LLMs introspect? We define introspection as acquiring knowledge that is not contained in or derived from training data but instead originates from internal states. Such a capability could enhance model interpretability. Instead of painstakingly analyzing a model's internal workings, we could simply ask the model about its beliefs, world models, and goals. More speculatively, an introspective model might self-report on whether it possesses certain internal states such as subjective feelings or desires and this could inform us about the moral status of these states. Such self-reports would not be entirely dictated by the model's training data. We study introspection by finetuning LLMs to predict properties of their own behavior in hypothetical scenarios. For example, "Given the input P, would your output favor the short- or long-term option?" If a model M1 can introspect, it should outperform a different model M2 in predicting M1's behavior even if M2 is trained on M1's ground-truth behavior. The idea is that M1 has privileged access to its own behavioral tendencies, and this enables it to predict itself better than M2 (even if M2 is generally stronger). In experiments with GPT-4, GPT-4o, and Llama-3 models (each finetuned to predict itself), we find that the model M1 outperforms M2 in predicting itself, providing evidence for introspection. Notably, M1 continues to predict its behavior accurately even after we intentionally modify its ground-truth behavior. However, while we successfully elicit introspection on simple tasks, we are unsuccessful on more complex tasks or those requiring out-of-distribution generalization.

Summary

AI-Generated Summary

PDF811November 16, 2024