ChatPaper.aiChatPaper

DexHoldem: Texas Hold'em spelen met een behendig belichaamd systeem

DexHoldem: Playing Texas Hold'em with Dexterous Embodied System

May 18, 2026
Auteurs: Feng Chen, Tianzhe Chu, Li Sun, Pei Zhou, Zhuxiu Xu, Shenghua Gao, Yuexiang Zhai, Yanchao Yang, Yi Ma
cs.AI

Samenvatting

Het evalueren van belichaamde systemen op echte behendige hardware vereist meer dan geïsoleerde primitieve vaardigheden: een agent moet een veranderend tafelbladoppervlak waarnemen, een contextgepaste actie kiezen, deze uitvoeren met een behendige hand en het tafereel bruikbaar achterlaten voor latere beslissingen. We introduceren DexHoldem, een real-world benchmark op systeemniveau, gebouwd rond Texas Hold'em behendige manipulatie met een ShadowHand. DexHoldem biedt 1.470 teleoperated demonstraties over 14 Texas Hold'em-manipulatieprimitieven, een gestandaardiseerde fysieke beleidsbenchmark en een agentische perceptiebenchmark die test of agenten de gestructureerde spelsituatie kunnen herstellen die nodig is voor belichaamde besluitvorming. Bij primitieve uitvoering behaalt π_{0.5} het hoogste taakvoltooiingspercentage (61,2%), terwijl π_{0.5} en π_0 gelijk staan op het percentage succes bij scènebehoud (47,5%). Bij agentische perceptie behaalt Opus 4.7 de beste strikte probleemniveau-nauwkeurigheid (34,3%), terwijl GPT 5.5 de beste gemiddelde veldgewijze nauwkeurigheid (66,8%) behaalt, wat een kloof blootlegt tussen geïsoleerde visuele subvaardigheden en volledige routeringsrelevante toestandsherstel. Ten slotte implementeren we de volledige belichaamde agent-lus in drie casestudies, waar wachten, herstelverzendingen, verzoeken om menselijke hulp en herhaalde primitieve uitvoering onthullen hoe perceptie- en beleidsfouten zich ophopen tijdens closed-loop-implementatie. DexHoldem evalueert daarom behendige tafelbladoppervlak-uitvoering, agentische perceptie en belichaamde beslissingsroutering in een gedeelde fysieke omgeving. Projectpagina: https://dexholdem.github.io/Dexholdem/.
English
Evaluating embodied systems on real dexterous hardware requires more than isolated primitive skills: an agent must perceive a changing tabletop scene, choose a context-appropriate action, execute it with a dexterous hand, and leave the scene usable for later decisions. We introduce DexHoldem, a real-world system-level benchmark built around Texas Hold'em dexterous manipulation with a ShadowHand. DexHoldem provides 1,470 teleoperated demonstrations across 14 Texas Hold'em manipulation primitives, a standardized physical policy benchmark, and an agentic perception benchmark that tests whether agents can recover the structured game state needed for embodied decision making. On primitive execution, π_{0.5} obtains the highest task completion rate (61.2%), while π_{0.5} and π_0 tie on scene-preserving success rate (47.5%). On agentic perception, Opus 4.7 obtains the best strict problem-level accuracy (34.3%), while GPT 5.5 obtains the best average field-wise accuracy (66.8%), exposing a gap between isolated visual sub-capabilities and complete routing-relevant state recovery. Finally, we instantiate the full embodied-agent loop in three case studies, where waiting, recovery dispatches, human-help requests, and repeated primitive execution reveal how perception and policy errors accumulate during closed-loop deployment. DexHoldem therefore evaluates dexterous tabletop execution, agentic perception, and embodied decision routing in a shared physical setting. Project page: https://dexholdem.github.io/Dexholdem/.