ChatPaper.aiChatPaper

PokerBench : Entraîner de grands modèles de langage pour devenir des joueurs de poker professionnels

PokerBench: Training Large Language Models to become Professional Poker Players

January 14, 2025
Auteurs: Richard Zhuang, Akshat Gupta, Richard Yang, Aniket Rahane, Zhengyu Li, Gopala Anumanchipalli
cs.AI

Résumé

Nous présentons PokerBench - un banc d'essai pour évaluer les capacités de jeu de poker des grands modèles de langage (LLM). Comme les LLM excellent dans les tâches de traitement du langage naturel traditionnelles, leur application à des jeux stratégiques complexes comme le poker pose un nouveau défi. Le poker, un jeu d'information incomplète, exige une multitude de compétences telles que les mathématiques, le raisonnement, la planification, la stratégie et une compréhension approfondie de la théorie des jeux et de la psychologie humaine. Cela fait du poker la prochaine frontière idéale pour les grands modèles de langage. PokerBench se compose d'une compilation complète de 11 000 scénarios les plus importants, répartis entre le jeu préflop et postflop, développés en collaboration avec des joueurs de poker expérimentés. Nous évaluons des modèles éminents tels que GPT-4, ChatGPT 3.5, ainsi que divers modèles des séries Llama et Gemma, constatant que tous les LLM de pointe sous-performent dans le jeu de poker optimal. Cependant, après un ajustement fin, ces modèles montrent des améliorations marquées. Nous validons PokerBench en faisant concourir des modèles avec des scores différents les uns contre les autres, démontrant que des scores plus élevés sur PokerBench entraînent des taux de victoire plus élevés dans les jeux de poker réels. À travers le jeu entre notre modèle affiné et GPT-4, nous identifions également les limites de l'ajustement fin supervisé simple pour apprendre une stratégie de jeu optimale, suggérant la nécessité de méthodologies plus avancées pour former efficacement les modèles de langage à exceller dans les jeux. PokerBench présente ainsi un banc d'essai unique pour une évaluation rapide et fiable de la capacité de jeu de poker des LLM ainsi qu'un banc d'essai complet pour étudier les progrès des LLM dans des scénarios de jeu complexes. Le jeu de données et le code seront disponibles sur : https://github.com/pokerllm/pokerbench.
English
We introduce PokerBench - a benchmark for evaluating the poker-playing abilities of large language models (LLMs). As LLMs excel in traditional NLP tasks, their application to complex, strategic games like poker poses a new challenge. Poker, an incomplete information game, demands a multitude of skills such as mathematics, reasoning, planning, strategy, and a deep understanding of game theory and human psychology. This makes Poker the ideal next frontier for large language models. PokerBench consists of a comprehensive compilation of 11,000 most important scenarios, split between pre-flop and post-flop play, developed in collaboration with trained poker players. We evaluate prominent models including GPT-4, ChatGPT 3.5, and various Llama and Gemma series models, finding that all state-of-the-art LLMs underperform in playing optimal poker. However, after fine-tuning, these models show marked improvements. We validate PokerBench by having models with different scores compete with each other, demonstrating that higher scores on PokerBench lead to higher win rates in actual poker games. Through gameplay between our fine-tuned model and GPT-4, we also identify limitations of simple supervised fine-tuning for learning optimal playing strategy, suggesting the need for more advanced methodologies for effectively training language models to excel in games. PokerBench thus presents a unique benchmark for a quick and reliable evaluation of the poker-playing ability of LLMs as well as a comprehensive benchmark to study the progress of LLMs in complex game-playing scenarios. The dataset and code will be made available at: https://github.com/pokerllm/pokerbench.

Summary

AI-Generated Summary

PDF172January 15, 2025