ChatPaper.aiChatPaper

PokerBench: Het trainen van grote taalmodellen om professionele pokerspelers te worden

PokerBench: Training Large Language Models to become Professional Poker Players

January 14, 2025
Auteurs: Richard Zhuang, Akshat Gupta, Richard Yang, Aniket Rahane, Zhengyu Li, Gopala Anumanchipalli
cs.AI

Samenvatting

We introduceren PokerBench - een benchmark voor het evalueren van de pokervaardigheden van grote taalmodellen (LLM's). Aangezien LLM's uitblinken in traditionele NLP-taken, vormt hun toepassing op complexe, strategische spellen zoals poker een nieuwe uitdaging. Poker, een spel met onvolledige informatie, vereist een veelheid aan vaardigheden zoals wiskunde, redeneren, planning, strategie, en een diepgaand begrip van speltheorie en menselijke psychologie. Dit maakt Poker de ideale volgende stap voor grote taalmodellen. PokerBench bestaat uit een uitgebreide verzameling van 11.000 belangrijkste scenario's, verdeeld tussen pre-flop en post-flop spel, ontwikkeld in samenwerking met getrainde pokerspelers. We evalueren prominente modellen, waaronder GPT-4, ChatGPT 3.5, en verschillende Llama- en Gemma-seriemodellen, waarbij we constateren dat alle toonaangevende LLM's onderpresteren bij het spelen van optimaal poker. Echter, na fijnafstemming vertonen deze modellen aanzienlijke verbeteringen. We valideren PokerBench door modellen met verschillende scores tegen elkaar te laten spelen, waarbij we aantonen dat hogere scores op PokerBench leiden tot hogere winstpercentages in daadwerkelijke pokerspellen. Door gameplay tussen ons fijnafgestemde model en GPT-4 identificeren we ook beperkingen van eenvoudige begeleide fijnafstemming voor het leren van optimale speelstrategie, wat wijst op de noodzaak van meer geavanceerde methodologieën voor effectieve training van taalmodellen om uit te blinken in spellen. PokerBench biedt daarom een unieke benchmark voor een snelle en betrouwbare evaluatie van de pokervaardigheid van LLM's, evenals een uitgebreide benchmark om de voortgang van LLM's in complexe spelscenario's te bestuderen. De dataset en code zullen beschikbaar worden gesteld op: https://github.com/pokerllm/pokerbench.
English
We introduce PokerBench - a benchmark for evaluating the poker-playing abilities of large language models (LLMs). As LLMs excel in traditional NLP tasks, their application to complex, strategic games like poker poses a new challenge. Poker, an incomplete information game, demands a multitude of skills such as mathematics, reasoning, planning, strategy, and a deep understanding of game theory and human psychology. This makes Poker the ideal next frontier for large language models. PokerBench consists of a comprehensive compilation of 11,000 most important scenarios, split between pre-flop and post-flop play, developed in collaboration with trained poker players. We evaluate prominent models including GPT-4, ChatGPT 3.5, and various Llama and Gemma series models, finding that all state-of-the-art LLMs underperform in playing optimal poker. However, after fine-tuning, these models show marked improvements. We validate PokerBench by having models with different scores compete with each other, demonstrating that higher scores on PokerBench lead to higher win rates in actual poker games. Through gameplay between our fine-tuned model and GPT-4, we also identify limitations of simple supervised fine-tuning for learning optimal playing strategy, suggesting the need for more advanced methodologies for effectively training language models to excel in games. PokerBench thus presents a unique benchmark for a quick and reliable evaluation of the poker-playing ability of LLMs as well as a comprehensive benchmark to study the progress of LLMs in complex game-playing scenarios. The dataset and code will be made available at: https://github.com/pokerllm/pokerbench.

Summary

AI-Generated Summary

PDF172January 15, 2025