DexHoldem : Jouer au Texas Hold'em avec un système incarné dextre

Résumé

Évaluer des systèmes incarnés sur du matériel dextre réel nécessite plus que des compétences primitives isolées : un agent doit percevoir une scène de table dynamique, choisir une action adaptée au contexte, l'exécuter avec une main dextre, et laisser la scène exploitable pour les décisions ultérieures. Nous présentons DexHoldem, un benchmark système au niveau réel construit autour de la manipulation dextre du Texas Hold'em avec une ShadowHand. DexHoldem fournit 1 470 démonstrations téléopérées couvrant 14 primitives de manipulation du Texas Hold'em, un benchmark physique standardisé pour les politiques, et un benchmark de perception agentique qui teste la capacité des agents à reconstruire l'état de jeu structuré nécessaire à la prise de décision incarnée. Sur l'exécution des primitives, π₀,₅ obtient le taux d'achèvement de tâche le plus élevé (61,2 %), tandis que π₀,₅ et π₀ sont à égalité sur le taux de succès de préservation de la scène (47,5 %). En perception agentique, Opus 4.7 atteint la meilleure précision stricte au niveau problème (34,3 %), tandis que GPT 5.5 obtient la meilleure précision moyenne par champ (66,8 %), révélant un écart entre les sous-capacités visuelles isolées et la reconstruction complète de l'état pertinent pour le routage. Enfin, nous instancions la boucle complète agent incarné dans trois études de cas, où l'attente, les répartitions de récupération, les demandes d'aide humaine et l'exécution répétée de primitives montrent comment les erreurs de perception et de politique s'accumulent lors du déploiement en boucle fermée. DexHoldem évalue donc l'exécution dextre sur table, la perception agentique et le routage de décision incarné dans un cadre physique partagé. Page du projet : https://dexholdem.github.io/Dexholdem/.

English

Evaluating embodied systems on real dexterous hardware requires more than isolated primitive skills: an agent must perceive a changing tabletop scene, choose a context-appropriate action, execute it with a dexterous hand, and leave the scene usable for later decisions. We introduce DexHoldem, a real-world system-level benchmark built around Texas Hold'em dexterous manipulation with a ShadowHand. DexHoldem provides 1,470 teleoperated demonstrations across 14 Texas Hold'em manipulation primitives, a standardized physical policy benchmark, and an agentic perception benchmark that tests whether agents can recover the structured game state needed for embodied decision making. On primitive execution, π_{0.5} obtains the highest task completion rate (61.2%), while π_{0.5} and π_0 tie on scene-preserving success rate (47.5%). On agentic perception, Opus 4.7 obtains the best strict problem-level accuracy (34.3%), while GPT 5.5 obtains the best average field-wise accuracy (66.8%), exposing a gap between isolated visual sub-capabilities and complete routing-relevant state recovery. Finally, we instantiate the full embodied-agent loop in three case studies, where waiting, recovery dispatches, human-help requests, and repeated primitive execution reveal how perception and policy errors accumulate during closed-loop deployment. DexHoldem therefore evaluates dexterous tabletop execution, agentic perception, and embodied decision routing in a shared physical setting. Project page: https://dexholdem.github.io/Dexholdem/.