DexHoldem: Jugando Texas Hold'em con un Sistema Embodied Diestro

Resumen

Evaluar sistemas encarnados sobre hardware diestro real requiere más que habilidades primitivas aisladas: un agente debe percibir una escena de mesa cambiante, elegir una acción apropiada al contexto, ejecutarla con una mano diestra y dejar la escena utilizable para decisiones posteriores. Presentamos DexHoldem, un banco de pruebas a nivel de sistema y del mundo real, construido en torno a la manipulación diestra de Texas Hold'em con una ShadowHand. DexHoldem proporciona 1.470 demostraciones teleoperadas en 14 primitivas de manipulación de Texas Hold'em, un banco de pruebas físico estandarizado de políticas y un banco de pruebas de percepción agéntica que evalúa si los agentes pueden recuperar el estado estructurado del juego necesario para la toma de decisiones encarnada. En ejecución de primitivas, π_{0.5} obtiene la tasa de finalización de tareas más alta (61,2 %), mientras que π_{0.5} y π_0 empatan en la tasa de éxito de preservación de la escena (47,5 %). En percepción agéntica, Opus 4.7 obtiene la mejor precisión estricta a nivel de problema (34,3 %), mientras que GPT 5.5 obtiene la mejor precisión promedio a nivel de campo (66,8 %), exponiendo una brecha entre las subcapacidades visuales aisladas y la recuperación completa del estado relevante para el enrutamiento. Finalmente, implementamos el bucle completo agente-encarnado en tres casos de estudio, donde las esperas, los envíos de recuperación, las solicitudes de ayuda humana y la ejecución repetida de primitivas revelan cómo los errores de percepción y política se acumulan durante el despliegue en bucle cerrado. Por lo tanto, DexHoldem evalúa la ejecución diestra sobre la mesa, la percepción agéntica y el enrutamiento de decisiones encarnadas en un entorno físico compartido. Página web del proyecto: https://dexholdem.github.io/Dexholdem/.

English

Evaluating embodied systems on real dexterous hardware requires more than isolated primitive skills: an agent must perceive a changing tabletop scene, choose a context-appropriate action, execute it with a dexterous hand, and leave the scene usable for later decisions. We introduce DexHoldem, a real-world system-level benchmark built around Texas Hold'em dexterous manipulation with a ShadowHand. DexHoldem provides 1,470 teleoperated demonstrations across 14 Texas Hold'em manipulation primitives, a standardized physical policy benchmark, and an agentic perception benchmark that tests whether agents can recover the structured game state needed for embodied decision making. On primitive execution, π_{0.5} obtains the highest task completion rate (61.2%), while π_{0.5} and π_0 tie on scene-preserving success rate (47.5%). On agentic perception, Opus 4.7 obtains the best strict problem-level accuracy (34.3%), while GPT 5.5 obtains the best average field-wise accuracy (66.8%), exposing a gap between isolated visual sub-capabilities and complete routing-relevant state recovery. Finally, we instantiate the full embodied-agent loop in three case studies, where waiting, recovery dispatches, human-help requests, and repeated primitive execution reveal how perception and policy errors accumulate during closed-loop deployment. DexHoldem therefore evaluates dexterous tabletop execution, agentic perception, and embodied decision routing in a shared physical setting. Project page: https://dexholdem.github.io/Dexholdem/.