Medindo a Inteligência Geral com Jogos Gerados

Resumo

Apresentamos o gg-bench, uma coleção de ambientes de jogos projetados para avaliar capacidades de raciocínio geral em modelos de linguagem. Diferente da maioria dos benchmarks estáticos, o gg-bench é um processo de geração de dados onde novas instâncias de avaliação podem ser geradas conforme necessário. Especificamente, o gg-bench é gerado sinteticamente por meio de (1) um modelo de linguagem de grande escala (LLM) para gerar descrições em linguagem natural de jogos inéditos, (2) o uso do LLM para implementar cada jogo em código como um ambiente Gym, e (3) o treinamento de agentes de aprendizado por reforço (RL) via autojogo nos jogos gerados. Avaliamos modelos de linguagem pela taxa de vitórias contra esses agentes de RL, solicitando que os modelos recebam a descrição do jogo, o estado atual do tabuleiro e uma lista de movimentos válidos, após o que os modelos escolhem os movimentos que desejam realizar. O gg-bench é desafiador: LLMs de ponta, como GPT-4o e Claude 3.7 Sonnet, alcançam taxas de vitória de 7-9% no gg-bench usando aprendizado em contexto, enquanto modelos de raciocínio, como o1, o3-mini e DeepSeek-R1, atingem taxas médias de vitória de 31-36%. Disponibilizamos os jogos gerados, o processo de geração de dados e o código de avaliação para apoiar trabalhos futuros de modelagem e a expansão do nosso benchmark.

English

We present gg-bench, a collection of game environments designed to evaluate general reasoning capabilities in language models. Unlike most static benchmarks, gg-bench is a data generating process where new evaluation instances can be generated at will. In particular, gg-bench is synthetically generated by (1) using a large language model (LLM) to generate natural language descriptions of novel games, (2) using the LLM to implement each game in code as a Gym environment, and (3) training reinforcement learning (RL) agents via self-play on the generated games. We evaluate language models by their winrate against these RL agents by prompting models with the game description, current board state, and a list of valid moves, after which models output the moves they wish to take. gg-bench is challenging: state-of-the-art LLMs such as GPT-4o and Claude 3.7 Sonnet achieve winrates of 7-9% on gg-bench using in-context learning, while reasoning models such as o1, o3-mini and DeepSeek-R1 achieve average winrates of 31-36%. We release the generated games, data generation process, and evaluation code in order to support future modeling work and expansion of our benchmark.

Medindo a Inteligência Geral com Jogos Gerados

Measuring General Intelligence with Generated Games

Resumo

Support