Измерение общего интеллекта с использованием сгенерированных игр

Аннотация

Мы представляем gg-bench — набор игровых сред, предназначенных для оценки способностей языковых моделей к общему рассуждению. В отличие от большинства статических тестов, gg-bench представляет собой процесс генерации данных, где новые тестовые примеры могут создаваться по запросу. В частности, gg-bench синтетически генерируется следующим образом: (1) с использованием крупной языковой модели (LLM) создаются естественно-языковые описания новых игр, (2) с помощью LLM каждая игра реализуется в виде кода как среда Gym, и (3) на сгенерированных играх обучаются агенты с подкреплением (RL) через самоигру. Мы оцениваем языковые модели по их проценту побед против этих RL-агентов, предоставляя моделям описание игры, текущее состояние игрового поля и список допустимых ходов, после чего модели выводят ходы, которые они хотят сделать. gg-bench является сложным: современные LLM, такие как GPT-4o и Claude 3.7 Sonnet, достигают процента побед 7-9% на gg-bench при использовании обучения в контексте, в то время как модели рассуждений, такие как o1, o3-mini и DeepSeek-R1, демонстрируют средний процент побед 31-36%. Мы публикуем сгенерированные игры, процесс генерации данных и код для оценки, чтобы поддержать будущие работы по моделированию и расширению нашего теста.

English

We present gg-bench, a collection of game environments designed to evaluate general reasoning capabilities in language models. Unlike most static benchmarks, gg-bench is a data generating process where new evaluation instances can be generated at will. In particular, gg-bench is synthetically generated by (1) using a large language model (LLM) to generate natural language descriptions of novel games, (2) using the LLM to implement each game in code as a Gym environment, and (3) training reinforcement learning (RL) agents via self-play on the generated games. We evaluate language models by their winrate against these RL agents by prompting models with the game description, current board state, and a list of valid moves, after which models output the moves they wish to take. gg-bench is challenging: state-of-the-art LLMs such as GPT-4o and Claude 3.7 Sonnet achieve winrates of 7-9% on gg-bench using in-context learning, while reasoning models such as o1, o3-mini and DeepSeek-R1 achieve average winrates of 31-36%. We release the generated games, data generation process, and evaluation code in order to support future modeling work and expansion of our benchmark.

Измерение общего интеллекта с использованием сгенерированных игр

Measuring General Intelligence with Generated Games

Аннотация

Support