ChatPaper.aiChatPaper

PokerBench: Entrenando Modelos de Lenguaje Grandes para Convertirse en Jugadores Profesionales de Póker

PokerBench: Training Large Language Models to become Professional Poker Players

January 14, 2025
Autores: Richard Zhuang, Akshat Gupta, Richard Yang, Aniket Rahane, Zhengyu Li, Gopala Anumanchipalli
cs.AI

Resumen

Presentamos PokerBench, un banco de pruebas para evaluar las habilidades de juego de póquer de los modelos de lenguaje grandes (LLM). Dado que los LLM destacan en tareas tradicionales de procesamiento del lenguaje natural (NLP), su aplicación a juegos estratégicos complejos como el póquer plantea un nuevo desafío. El póquer, un juego de información incompleta, requiere una multitud de habilidades como matemáticas, razonamiento, planificación, estrategia y una profunda comprensión de la teoría de juegos y la psicología humana. Esto convierte al póquer en la próxima frontera ideal para los modelos de lenguaje grandes. PokerBench consta de una compilación exhaustiva de 11,000 escenarios más importantes, divididos entre juego pre-flop y post-flop, desarrollados en colaboración con jugadores de póquer entrenados. Evaluamos modelos prominentes como GPT-4, ChatGPT 3.5 y varios modelos de las series Llama y Gemma, encontrando que todos los LLM de última generación tienen un rendimiento inferior al jugar póquer óptimo. Sin embargo, después de un ajuste fino, estos modelos muestran mejoras significativas. Validamos PokerBench haciendo que modelos con diferentes puntajes compitan entre sí, demostrando que puntajes más altos en PokerBench conducen a mayores tasas de victoria en juegos de póquer reales. A través de partidas entre nuestro modelo ajustado y GPT-4, también identificamos limitaciones del simple ajuste fino supervisado para aprender estrategias de juego óptimas, lo que sugiere la necesidad de metodologías más avanzadas para entrenar eficazmente a los modelos de lenguaje para destacar en juegos. PokerBench presenta así un banco de pruebas único para una evaluación rápida y fiable de la capacidad de juego de póquer de los LLM, así como un banco de pruebas integral para estudiar el progreso de los LLM en escenarios de juego complejos. El conjunto de datos y el código estarán disponibles en: https://github.com/pokerllm/pokerbench.
English
We introduce PokerBench - a benchmark for evaluating the poker-playing abilities of large language models (LLMs). As LLMs excel in traditional NLP tasks, their application to complex, strategic games like poker poses a new challenge. Poker, an incomplete information game, demands a multitude of skills such as mathematics, reasoning, planning, strategy, and a deep understanding of game theory and human psychology. This makes Poker the ideal next frontier for large language models. PokerBench consists of a comprehensive compilation of 11,000 most important scenarios, split between pre-flop and post-flop play, developed in collaboration with trained poker players. We evaluate prominent models including GPT-4, ChatGPT 3.5, and various Llama and Gemma series models, finding that all state-of-the-art LLMs underperform in playing optimal poker. However, after fine-tuning, these models show marked improvements. We validate PokerBench by having models with different scores compete with each other, demonstrating that higher scores on PokerBench lead to higher win rates in actual poker games. Through gameplay between our fine-tuned model and GPT-4, we also identify limitations of simple supervised fine-tuning for learning optimal playing strategy, suggesting the need for more advanced methodologies for effectively training language models to excel in games. PokerBench thus presents a unique benchmark for a quick and reliable evaluation of the poker-playing ability of LLMs as well as a comprehensive benchmark to study the progress of LLMs in complex game-playing scenarios. The dataset and code will be made available at: https://github.com/pokerllm/pokerbench.

Summary

AI-Generated Summary

PDF172January 15, 2025