Mesurer l'intelligence générale à l'aide de jeux générés

papers.abstract

Nous présentons gg-bench, une collection d'environnements de jeu conçus pour évaluer les capacités de raisonnement général des modèles de langage. Contrairement à la plupart des benchmarks statiques, gg-bench est un processus de génération de données où de nouvelles instances d'évaluation peuvent être générées à volonté. Plus précisément, gg-bench est généré de manière synthétique en (1) utilisant un grand modèle de langage (LLM) pour produire des descriptions en langage naturel de jeux inédits, (2) utilisant le LLM pour implémenter chaque jeu en code sous forme d'environnement Gym, et (3) entraînant des agents d'apprentissage par renforcement (RL) via l'auto-joueur sur les jeux générés. Nous évaluons les modèles de langage en fonction de leur taux de victoire contre ces agents RL en fournissant aux modèles la description du jeu, l'état actuel du plateau et une liste de mouvements valides, après quoi les modèles produisent les mouvements qu'ils souhaitent effectuer. gg-bench est exigeant : les LLM de pointe tels que GPT-4o et Claude 3.7 Sonnet atteignent des taux de victoire de 7 à 9 % sur gg-bench en utilisant l'apprentissage en contexte, tandis que les modèles de raisonnement tels que o1, o3-mini et DeepSeek-R1 atteignent des taux de victoire moyens de 31 à 36 %. Nous publions les jeux générés, le processus de génération de données et le code d'évaluation afin de soutenir les travaux futurs de modélisation et l'expansion de notre benchmark.

English

We present gg-bench, a collection of game environments designed to evaluate general reasoning capabilities in language models. Unlike most static benchmarks, gg-bench is a data generating process where new evaluation instances can be generated at will. In particular, gg-bench is synthetically generated by (1) using a large language model (LLM) to generate natural language descriptions of novel games, (2) using the LLM to implement each game in code as a Gym environment, and (3) training reinforcement learning (RL) agents via self-play on the generated games. We evaluate language models by their winrate against these RL agents by prompting models with the game description, current board state, and a list of valid moves, after which models output the moves they wish to take. gg-bench is challenging: state-of-the-art LLMs such as GPT-4o and Claude 3.7 Sonnet achieve winrates of 7-9% on gg-bench using in-context learning, while reasoning models such as o1, o3-mini and DeepSeek-R1 achieve average winrates of 31-36%. We release the generated games, data generation process, and evaluation code in order to support future modeling work and expansion of our benchmark.

Mesurer l'intelligence générale à l'aide de jeux générés

Measuring General Intelligence with Generated Games

papers.abstract

Support