DexHoldem: Jugando Texas Hold'em con un Sistema Embodied Diestro
DexHoldem: Playing Texas Hold'em with Dexterous Embodied System
May 18, 2026
Autores: Feng Chen, Tianzhe Chu, Li Sun, Pei Zhou, Zhuxiu Xu, Shenghua Gao, Yuexiang Zhai, Yanchao Yang, Yi Ma
cs.AI
Resumen
Evaluar sistemas encarnados sobre hardware diestro real requiere más que habilidades primitivas aisladas: un agente debe percibir una escena de mesa cambiante, elegir una acción apropiada al contexto, ejecutarla con una mano diestra y dejar la escena utilizable para decisiones posteriores. Presentamos DexHoldem, un banco de pruebas a nivel de sistema y del mundo real, construido en torno a la manipulación diestra de Texas Hold'em con una ShadowHand. DexHoldem proporciona 1.470 demostraciones teleoperadas en 14 primitivas de manipulación de Texas Hold'em, un banco de pruebas físico estandarizado de políticas y un banco de pruebas de percepción agéntica que evalúa si los agentes pueden recuperar el estado estructurado del juego necesario para la toma de decisiones encarnada. En ejecución de primitivas, π_{0.5} obtiene la tasa de finalización de tareas más alta (61,2 %), mientras que π_{0.5} y π_0 empatan en la tasa de éxito de preservación de la escena (47,5 %). En percepción agéntica, Opus 4.7 obtiene la mejor precisión estricta a nivel de problema (34,3 %), mientras que GPT 5.5 obtiene la mejor precisión promedio a nivel de campo (66,8 %), exponiendo una brecha entre las subcapacidades visuales aisladas y la recuperación completa del estado relevante para el enrutamiento. Finalmente, implementamos el bucle completo agente-encarnado en tres casos de estudio, donde las esperas, los envíos de recuperación, las solicitudes de ayuda humana y la ejecución repetida de primitivas revelan cómo los errores de percepción y política se acumulan durante el despliegue en bucle cerrado. Por lo tanto, DexHoldem evalúa la ejecución diestra sobre la mesa, la percepción agéntica y el enrutamiento de decisiones encarnadas en un entorno físico compartido. Página web del proyecto: https://dexholdem.github.io/Dexholdem/.
English
Evaluating embodied systems on real dexterous hardware requires more than isolated primitive skills: an agent must perceive a changing tabletop scene, choose a context-appropriate action, execute it with a dexterous hand, and leave the scene usable for later decisions. We introduce DexHoldem, a real-world system-level benchmark built around Texas Hold'em dexterous manipulation with a ShadowHand. DexHoldem provides 1,470 teleoperated demonstrations across 14 Texas Hold'em manipulation primitives, a standardized physical policy benchmark, and an agentic perception benchmark that tests whether agents can recover the structured game state needed for embodied decision making. On primitive execution, π_{0.5} obtains the highest task completion rate (61.2%), while π_{0.5} and π_0 tie on scene-preserving success rate (47.5%). On agentic perception, Opus 4.7 obtains the best strict problem-level accuracy (34.3%), while GPT 5.5 obtains the best average field-wise accuracy (66.8%), exposing a gap between isolated visual sub-capabilities and complete routing-relevant state recovery. Finally, we instantiate the full embodied-agent loop in three case studies, where waiting, recovery dispatches, human-help requests, and repeated primitive execution reveal how perception and policy errors accumulate during closed-loop deployment. DexHoldem therefore evaluates dexterous tabletop execution, agentic perception, and embodied decision routing in a shared physical setting. Project page: https://dexholdem.github.io/Dexholdem/.