PokemonChat: Auditoría de ChatGPT sobre el Conocimiento del Universo Pokémon

Resumen

El recientemente lanzado modelo ChatGPT demuestra capacidades sin precedentes en la respuesta a preguntas en modo zero-shot. En este trabajo, exploramos la comprensión conversacional de ChatGPT e introducimos un marco (protocolo) conversacional que puede adoptarse en estudios futuros. El universo Pok\'emon sirve como un terreno de prueba ideal para auditar las capacidades de razonamiento de ChatGPT debido a su supuesto de mundo cerrado. Tras revelar el conocimiento previo de ChatGPT sobre el universo Pok\'emon, probamos su proceso de razonamiento al utilizar estos conceptos en escenarios de batalla. Luego evaluamos su capacidad para adquirir nuevos conocimientos e incorporarlos en su proceso de razonamiento. Nuestro objetivo final es evaluar la capacidad de ChatGPT para generalizar, combinar características, y adquirir y razonar sobre conocimientos recién introducidos a partir de la retroalimentación humana. Descubrimos que ChatGPT posee conocimientos previos sobre el universo Pok\'emon, sobre los cuales puede razonar en gran medida en escenarios de batalla, incluso cuando se introduce nueva información. El modelo funciona mejor con retroalimentación colaborativa y si hay una fase inicial de recuperación de información, pero también alucina ocasionalmente y es susceptible a ataques adversarios.

English

The recently released ChatGPT model demonstrates unprecedented capabilities in zero-shot question-answering. In this work, we probe ChatGPT for its conversational understanding and introduce a conversational framework (protocol) that can be adopted in future studies. The Pok\'emon universe serves as an ideal testing ground for auditing ChatGPT's reasoning capabilities due to its closed world assumption. After bringing ChatGPT's background knowledge (on the Pok\'emon universe) to light, we test its reasoning process when using these concepts in battle scenarios. We then evaluate its ability to acquire new knowledge and include it in its reasoning process. Our ultimate goal is to assess ChatGPT's ability to generalize, combine features, and to acquire and reason over newly introduced knowledge from human feedback. We find that ChatGPT has prior knowledge of the Pokemon universe, which can reason upon in battle scenarios to a great extent, even when new information is introduced. The model performs better with collaborative feedback and if there is an initial phase of information retrieval, but also hallucinates occasionally and is susceptible to adversarial attacks.

PokemonChat: Auditoría de ChatGPT sobre el Conocimiento del Universo Pokémon

PokemonChat: Auditing ChatGPT for Pokémon Universe Knowledge

Resumen

Support