ChatPaper.aiChatPaper

PokerBench: Обучение больших языковых моделей для становления профессиональными игроками в покер.

PokerBench: Training Large Language Models to become Professional Poker Players

January 14, 2025
Авторы: Richard Zhuang, Akshat Gupta, Richard Yang, Aniket Rahane, Zhengyu Li, Gopala Anumanchipalli
cs.AI

Аннотация

Мы представляем PokerBench - бенчмарк для оценки игровых способностей крупных моделей языка (LLM) в покере. Поскольку LLM проявляют себя превосходно в традиционных задачах обработки естественного языка, их применение в сложных стратегических играх, таких как покер, представляет собой новое испытание. Покер, как игра с неполной информацией, требует множества навыков, таких как математика, рассуждения, планирование, стратегия, а также глубокого понимания теории игр и психологии человека. Это делает покер идеальным следующим этапом для крупных моделей языка. PokerBench состоит из обширной подборки 11 000 наиболее важных сценариев, разделенных между игрой до флопа и после флопа, разработанных в сотрудничестве с опытными игроками в покер. Мы оцениваем ведущие модели, включая GPT-4, ChatGPT 3.5, а также различные модели серий Llama и Gemma, обнаруживая, что все передовые LLM показывают недостаточные результаты в игре в оптимальный покер. Однако после настройки эти модели проявляют заметные улучшения. Мы проверяем PokerBench, заставляя модели с разными оценками соревноваться между собой, демонстрируя, что более высокие оценки на PokerBench приводят к более высоким победным процентам в реальных играх в покер. Через игру между нашей настроенной моделью и GPT-4 мы также выявляем ограничения простой надзорной настройки для изучения оптимальной стратегии игры, указывая на необходимость более продвинутых методологий для эффективного обучения языковых моделей, чтобы превзойти в играх. PokerBench таким образом представляет собой уникальный бенчмарк для быстрой и надежной оценки игровых способностей LLM, а также комплексный бенчмарк для изучения прогресса LLM в сложных сценариях игр. Набор данных и код будут доступны по ссылке: https://github.com/pokerllm/pokerbench.
English
We introduce PokerBench - a benchmark for evaluating the poker-playing abilities of large language models (LLMs). As LLMs excel in traditional NLP tasks, their application to complex, strategic games like poker poses a new challenge. Poker, an incomplete information game, demands a multitude of skills such as mathematics, reasoning, planning, strategy, and a deep understanding of game theory and human psychology. This makes Poker the ideal next frontier for large language models. PokerBench consists of a comprehensive compilation of 11,000 most important scenarios, split between pre-flop and post-flop play, developed in collaboration with trained poker players. We evaluate prominent models including GPT-4, ChatGPT 3.5, and various Llama and Gemma series models, finding that all state-of-the-art LLMs underperform in playing optimal poker. However, after fine-tuning, these models show marked improvements. We validate PokerBench by having models with different scores compete with each other, demonstrating that higher scores on PokerBench lead to higher win rates in actual poker games. Through gameplay between our fine-tuned model and GPT-4, we also identify limitations of simple supervised fine-tuning for learning optimal playing strategy, suggesting the need for more advanced methodologies for effectively training language models to excel in games. PokerBench thus presents a unique benchmark for a quick and reliable evaluation of the poker-playing ability of LLMs as well as a comprehensive benchmark to study the progress of LLMs in complex game-playing scenarios. The dataset and code will be made available at: https://github.com/pokerllm/pokerbench.

Summary

AI-Generated Summary

PDF172January 15, 2025