ChatPaper.aiChatPaper

Вглядываясь внутрь: Языковые модели могут учиться о самих себе через интроспекцию.

Looking Inward: Language Models Can Learn About Themselves by Introspection

October 17, 2024
Авторы: Felix J Binder, James Chua, Tomek Korbak, Henry Sleight, John Hughes, Robert Long, Ethan Perez, Miles Turpin, Owain Evans
cs.AI

Аннотация

Люди приобретают знания, наблюдая внешний мир, но также через интроспекцию. Интроспекция дает человеку привилегированный доступ к его текущему состоянию ума (например, мысли и чувства), которое недоступно внешним наблюдателям. Могут ли LLMы проводить интроспекцию? Мы определяем интроспекцию как приобретение знаний, которые не содержатся в или не происходят от обучающих данных, а вместо этого происходят из внутренних состояний. Такая способность может улучшить интерпретируемость модели. Вместо тщательного анализа внутренних механизмов модели мы могли бы просто спросить модель о ее убеждениях, моделях мира и целях. Более спекулятивно, интроспективная модель может самооценивать, обладает ли она определенными внутренними состояниями, такими как субъективные чувства или желания, и это могло бы информировать нас о моральном статусе этих состояний. Такие самоотчеты не были бы полностью диктованы обучающими данными модели. Мы изучаем интроспекцию, донастраивая LLMы для предсказания свойств своего собственного поведения в гипотетических сценариях. Например, "Учитывая ввод P, будет ли ваш вывод выгоден для краткосрочной или долгосрочной опции?" Если модель M1 способна на интроспекцию, она должна превзойти другую модель M2 в предсказании поведения M1, даже если M2 обучена на правильном поведении M1. Идея заключается в том, что M1 имеет привилегированный доступ к своим собственным тенденциям поведения, что позволяет ей предсказывать себя лучше, чем M2 (даже если M2 в целом сильнее). В экспериментах с моделями GPT-4, GPT-4o и Llama-3 (каждая донастроена для предсказания самой себя) мы обнаруживаем, что модель M1 превосходит M2 в предсказании самой себя, предоставляя доказательства интроспекции. Заметно, что M1 продолжает точно предсказывать свое поведение даже после того, как мы намеренно изменяем его правильное поведение. Однако, хотя мы успешно вызываем интроспекцию на простых задачах, мы не достигаем успеха на более сложных задачах или тех, которые требуют обобщения вне распределения.
English
Humans acquire knowledge by observing the external world, but also by introspection. Introspection gives a person privileged access to their current state of mind (e.g., thoughts and feelings) that is not accessible to external observers. Can LLMs introspect? We define introspection as acquiring knowledge that is not contained in or derived from training data but instead originates from internal states. Such a capability could enhance model interpretability. Instead of painstakingly analyzing a model's internal workings, we could simply ask the model about its beliefs, world models, and goals. More speculatively, an introspective model might self-report on whether it possesses certain internal states such as subjective feelings or desires and this could inform us about the moral status of these states. Such self-reports would not be entirely dictated by the model's training data. We study introspection by finetuning LLMs to predict properties of their own behavior in hypothetical scenarios. For example, "Given the input P, would your output favor the short- or long-term option?" If a model M1 can introspect, it should outperform a different model M2 in predicting M1's behavior even if M2 is trained on M1's ground-truth behavior. The idea is that M1 has privileged access to its own behavioral tendencies, and this enables it to predict itself better than M2 (even if M2 is generally stronger). In experiments with GPT-4, GPT-4o, and Llama-3 models (each finetuned to predict itself), we find that the model M1 outperforms M2 in predicting itself, providing evidence for introspection. Notably, M1 continues to predict its behavior accurately even after we intentionally modify its ground-truth behavior. However, while we successfully elicit introspection on simple tasks, we are unsuccessful on more complex tasks or those requiring out-of-distribution generalization.

Summary

AI-Generated Summary

PDF811November 16, 2024