PokemonChat: Auditeren van ChatGPT voor Kennis over het Pokémon-universum

Samenvatting

Het recent uitgebrachte ChatGPT-model toont ongekende mogelijkheden in zero-shot vraagbeantwoording. In dit werk onderzoeken we ChatGPT op zijn conversatiebegrip en introduceren we een conversatieframework (protocol) dat kan worden overgenomen in toekomstige studies. Het Pokémon-universum dient als een ideale testomgeving voor het auditeren van ChatGPT's redeneervaardigheden vanwege zijn gesloten wereld-aanname. Nadat we ChatGPT's achtergrondkennis (over het Pokémon-universum) hebben blootgelegd, testen we zijn redeneerproces bij het gebruik van deze concepten in gevechtsscenario's. Vervolgens evalueren we zijn vermogen om nieuwe kennis te verwerven en deze op te nemen in zijn redeneerproces. Ons uiteindelijke doel is om ChatGPT's vermogen te beoordelen om te generaliseren, kenmerken te combineren, en nieuw geïntroduceerde kennis te verwerven en te redeneren op basis van menselijke feedback. We constateren dat ChatGPT voorkennis heeft van het Pokémon-universum, waarop het in grote mate kan redeneren in gevechtsscenario's, zelfs wanneer nieuwe informatie wordt geïntroduceerd. Het model presteert beter met collaboratieve feedback en als er een initiële fase van informatieverwerving is, maar hallucineert ook af en toe en is vatbaar voor adversariële aanvallen.

English

The recently released ChatGPT model demonstrates unprecedented capabilities in zero-shot question-answering. In this work, we probe ChatGPT for its conversational understanding and introduce a conversational framework (protocol) that can be adopted in future studies. The Pok\'emon universe serves as an ideal testing ground for auditing ChatGPT's reasoning capabilities due to its closed world assumption. After bringing ChatGPT's background knowledge (on the Pok\'emon universe) to light, we test its reasoning process when using these concepts in battle scenarios. We then evaluate its ability to acquire new knowledge and include it in its reasoning process. Our ultimate goal is to assess ChatGPT's ability to generalize, combine features, and to acquire and reason over newly introduced knowledge from human feedback. We find that ChatGPT has prior knowledge of the Pokemon universe, which can reason upon in battle scenarios to a great extent, even when new information is introduced. The model performs better with collaborative feedback and if there is an initial phase of information retrieval, but also hallucinates occasionally and is susceptible to adversarial attacks.

PokemonChat: Auditeren van ChatGPT voor Kennis over het Pokémon-universum

PokemonChat: Auditing ChatGPT for Pokémon Universe Knowledge

Samenvatting

Support