PokemonChat: Аудит ChatGPT на знание вселенной Pokémon
PokemonChat: Auditing ChatGPT for Pokémon Universe Knowledge
June 5, 2023
Авторы: Laura Cabello, Jiaang Li, Ilias Chalkidis
cs.AI
Аннотация
Недавно выпущенная модель ChatGPT демонстрирует беспрецедентные возможности в решении задач с нулевым обучением (zero-shot question-answering). В данной работе мы исследуем способность ChatGPT к пониманию диалогов и представляем диалоговую структуру (протокол), которая может быть использована в будущих исследованиях. Вселенная Pokémon служит идеальной площадкой для проверки способностей ChatGPT к рассуждению благодаря её замкнутому миру. После выявления фоновых знаний ChatGPT о вселенной Pokémon мы тестируем его процесс рассуждения при использовании этих концепций в сценариях сражений. Затем мы оцениваем его способность усваивать новые знания и включать их в процесс рассуждения. Наша конечная цель — оценить способность ChatGPT к обобщению, комбинированию признаков, а также к усвоению и рассуждению на основе новых знаний, полученных из обратной связи с человеком. Мы обнаруживаем, что ChatGPT обладает предварительными знаниями о вселенной Pokémon, на основе которых он может в значительной степени рассуждать в сценариях сражений, даже когда вводится новая информация. Модель показывает лучшие результаты при совместной обратной связи и наличии начальной фазы извлечения информации, но также иногда генерирует ложные данные и уязвима для атак со стороны злоумышленников.
English
The recently released ChatGPT model demonstrates unprecedented capabilities
in zero-shot question-answering. In this work, we probe ChatGPT for its
conversational understanding and introduce a conversational framework
(protocol) that can be adopted in future studies. The Pok\'emon universe serves
as an ideal testing ground for auditing ChatGPT's reasoning capabilities due to
its closed world assumption. After bringing ChatGPT's background knowledge (on
the Pok\'emon universe) to light, we test its reasoning process when using
these concepts in battle scenarios. We then evaluate its ability to acquire new
knowledge and include it in its reasoning process. Our ultimate goal is to
assess ChatGPT's ability to generalize, combine features, and to acquire and
reason over newly introduced knowledge from human feedback. We find that
ChatGPT has prior knowledge of the Pokemon universe, which can reason upon in
battle scenarios to a great extent, even when new information is introduced.
The model performs better with collaborative feedback and if there is an
initial phase of information retrieval, but also hallucinates occasionally and
is susceptible to adversarial attacks.