Reflection-Bench: исследование интеллекта искусственного интеллекта с помощью рефлексии
Reflection-Bench: probing AI intelligence with reflection
October 21, 2024
Авторы: Lingyu Li, Yixu Wang, Haiquan Zhao, Shuqi Kong, Yan Teng, Chunbo Li, Yingchun Wang
cs.AI
Аннотация
Способность адаптировать убеждения или поведение в ответ на неожиданные результаты, рефлексия, является фундаментальной для взаимодействия интеллектуальных систем с миром. С точки зрения когнитивной науки, это служит основным принципом интеллекта, применимым как к человеческим, так и к искусственным интеллектуальным системам. Для решения дебатов об интеллекте больших языковых моделей (LLM) мы предлагаем Reflection-Bench, комплексный бенчмарк, включающий 7 задач, охватывающих основные когнитивные функции, важные для рефлексии, включая восприятие, память, обновление убеждений, принятие решений, предсказание, контрфактуальное мышление и мета-рефлексию. Мы оцениваем производительность 13 известных LLM, таких как OpenAI o1, GPT-4, Claude 3.5 Sonnet и др. Результаты показывают, что текущим LLM все еще не хватает удовлетворительной способности к рефлексии. Мы обсуждаем основные причины этих результатов и предлагаем потенциальные направления для будущих исследований. В заключение, Reflection-Bench предлагает как инструменты оценки, так и вдохновение для развития искусственного интеллекта, способного надежно взаимодействовать с окружающей средой. Наши данные и код доступны по ссылке https://github.com/YabYum/ReflectionBench.
English
The ability to adapt beliefs or behaviors in response to unexpected outcomes,
reflection, is fundamental to intelligent systems' interaction with the world.
From a cognitive science perspective, this serves as a core principle of
intelligence applicable to both human and AI systems. To address the debate on
the intelligence of large language models (LLMs), we propose Reflection-Bench,
a comprehensive benchmark comprising 7 tasks spanning core cognitive functions
crucial for reflection, including perception, memory, belief updating,
decision-making, prediction, counterfactual thinking, and meta-reflection. We
evaluate the performances of 13 prominent LLMs such as OpenAI o1, GPT-4, Claude
3.5 Sonnet, etc. The results indicate that current LLMs still lack satisfactory
reflection ability. We discuss the underlying causes of these results and
suggest potential avenues for future research. In conclusion, Reflection-Bench
offers both evaluation tools and inspiration for developing AI capable of
reliably interacting with the environment. Our data and code are available at
https://github.com/YabYum/ReflectionBench.Summary
AI-Generated Summary