AI Gamestore: Масштабируемая и открытая оценка общего машинного интеллекта с использованием человеческих игр

Аннотация

Строгая оценка машинного интеллекта в сравнении с широким спектром общего интеллекта человека становится все более важной и сложной задачей в эпоху стремительного технологического прогресса. Традиционные тесты ИИ обычно оценивают лишь узкие способности в ограниченном диапазоне человеческой деятельности. Большинство из них также являются статичными и быстро насыщаются по мере того, как разработчики явно или неявно оптимизируют системы под них. Мы предполагаем, что более перспективный способ оценки человеко-подобного общего интеллекта в системах ИИ заключается в использовании особо сильной формы общего игрового мастерства: изучения того, как и насколько хорошо они играют и учатся играть во все conceivable человеческие игры, по сравнению с человеческими игроками, имеющими сопоставимый уровень опыта, времени или других ресурсов. Мы определяем «человеческую игру» как игру, созданную людьми для людей, и обосновываем пригодность для оценки всего пространства таких игр, которые люди могут придумать и которым могут радоваться — «Мультивселенной человеческих игр». Сделав первый шаг к этой цели, мы представляем AI GameStore — масштабируемую и открытую платформу, которая использует большие языковые модели (LLM) с участием человека в цикле для синтеза новых репрезентативных человеческих игр путем автоматического поиска и адаптации стандартизированных и контейнеризованных вариантов игровых сред с популярных цифровых игровых платформ для людей. В качестве доказательства концепции мы сгенерировали 100 таких игр на основе топ-чартов Apple App Store и Steam и оценили семь передовых визуально-языковых моделей (VLM) на коротких игровых эпизодах. Лучшие модели показали менее 10% от среднего человеческого результата в большинстве игр и особенно испытывали трудности с играми, которые бросают вызов обучению моделей мира, памяти и планированию. В заключение мы предлагаем набор следующих шагов для развития AI GameStore как практического способа измерения и стимулирования прогресса в направлении достижения человеко-подобного общего интеллекта в машинах.

English

Rigorously evaluating machine intelligence against the broad spectrum of human general intelligence has become increasingly important and challenging in this era of rapid technological advance. Conventional AI benchmarks typically assess only narrow capabilities in a limited range of human activity. Most are also static, quickly saturating as developers explicitly or implicitly optimize for them. We propose that a more promising way to evaluate human-like general intelligence in AI systems is through a particularly strong form of general game playing: studying how and how well they play and learn to play all conceivable human games, in comparison to human players with the same level of experience, time, or other resources. We define a "human game" to be a game designed by humans for humans, and argue for the evaluative suitability of this space of all such games people can imagine and enjoy -- the "Multiverse of Human Games". Taking a first step towards this vision, we introduce the AI GameStore, a scalable and open-ended platform that uses LLMs with humans-in-the-loop to synthesize new representative human games, by automatically sourcing and adapting standardized and containerized variants of game environments from popular human digital gaming platforms. As a proof of concept, we generated 100 such games based on the top charts of Apple App Store and Steam, and evaluated seven frontier vision-language models (VLMs) on short episodes of play. The best models achieved less than 10\% of the human average score on the majority of the games, and especially struggled with games that challenge world-model learning, memory and planning. We conclude with a set of next steps for building out the AI GameStore as a practical way to measure and drive progress toward human-like general intelligence in machines.

AI Gamestore: Масштабируемая и открытая оценка общего машинного интеллекта с использованием человеческих игр

AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

Аннотация

Support