ChatPaper.aiChatPaper

Reflection-Bench: explorando la inteligencia de la IA a través de la reflexión

Reflection-Bench: probing AI intelligence with reflection

October 21, 2024
Autores: Lingyu Li, Yixu Wang, Haiquan Zhao, Shuqi Kong, Yan Teng, Chunbo Li, Yingchun Wang
cs.AI

Resumen

La capacidad de adaptar creencias o comportamientos en respuesta a resultados inesperados, la reflexión, es fundamental para la interacción de los sistemas inteligentes con el mundo. Desde una perspectiva de ciencia cognitiva, esto sirve como un principio central de inteligencia aplicable tanto a sistemas humanos como de IA. Para abordar el debate sobre la inteligencia de los grandes modelos de lenguaje (LLMs), proponemos Reflection-Bench, un banco de pruebas integral que consta de 7 tareas que abarcan funciones cognitivas básicas cruciales para la reflexión, incluyendo percepción, memoria, actualización de creencias, toma de decisiones, predicción, pensamiento contrafáctico y meta-reflexión. Evaluamos el rendimiento de 13 LLMs prominentes como OpenAI o1, GPT-4, Claude 3.5 Sonnet, etc. Los resultados indican que los LLMs actuales aún carecen de una capacidad de reflexión satisfactoria. Discutimos las causas subyacentes de estos resultados y sugerimos posibles vías para investigaciones futuras. En conclusión, Reflection-Bench ofrece tanto herramientas de evaluación como inspiración para desarrollar IA capaces de interactuar de manera confiable con el entorno. Nuestros datos y código están disponibles en https://github.com/YabYum/ReflectionBench.
English
The ability to adapt beliefs or behaviors in response to unexpected outcomes, reflection, is fundamental to intelligent systems' interaction with the world. From a cognitive science perspective, this serves as a core principle of intelligence applicable to both human and AI systems. To address the debate on the intelligence of large language models (LLMs), we propose Reflection-Bench, a comprehensive benchmark comprising 7 tasks spanning core cognitive functions crucial for reflection, including perception, memory, belief updating, decision-making, prediction, counterfactual thinking, and meta-reflection. We evaluate the performances of 13 prominent LLMs such as OpenAI o1, GPT-4, Claude 3.5 Sonnet, etc. The results indicate that current LLMs still lack satisfactory reflection ability. We discuss the underlying causes of these results and suggest potential avenues for future research. In conclusion, Reflection-Bench offers both evaluation tools and inspiration for developing AI capable of reliably interacting with the environment. Our data and code are available at https://github.com/YabYum/ReflectionBench.

Summary

AI-Generated Summary

PDF62November 16, 2024