DexHoldem: Texas Hold'em spelen met een behendig belichaamd systeem

Samenvatting

Het evalueren van belichaamde systemen op echte behendige hardware vereist meer dan geïsoleerde primitieve vaardigheden: een agent moet een veranderend tafelbladoppervlak waarnemen, een contextgepaste actie kiezen, deze uitvoeren met een behendige hand en het tafereel bruikbaar achterlaten voor latere beslissingen. We introduceren DexHoldem, een real-world benchmark op systeemniveau, gebouwd rond Texas Hold'em behendige manipulatie met een ShadowHand. DexHoldem biedt 1.470 teleoperated demonstraties over 14 Texas Hold'em-manipulatieprimitieven, een gestandaardiseerde fysieke beleidsbenchmark en een agentische perceptiebenchmark die test of agenten de gestructureerde spelsituatie kunnen herstellen die nodig is voor belichaamde besluitvorming. Bij primitieve uitvoering behaalt π_{0.5} het hoogste taakvoltooiingspercentage (61,2%), terwijl π_{0.5} en π_0 gelijk staan op het percentage succes bij scènebehoud (47,5%). Bij agentische perceptie behaalt Opus 4.7 de beste strikte probleemniveau-nauwkeurigheid (34,3%), terwijl GPT 5.5 de beste gemiddelde veldgewijze nauwkeurigheid (66,8%) behaalt, wat een kloof blootlegt tussen geïsoleerde visuele subvaardigheden en volledige routeringsrelevante toestandsherstel. Ten slotte implementeren we de volledige belichaamde agent-lus in drie casestudies, waar wachten, herstelverzendingen, verzoeken om menselijke hulp en herhaalde primitieve uitvoering onthullen hoe perceptie- en beleidsfouten zich ophopen tijdens closed-loop-implementatie. DexHoldem evalueert daarom behendige tafelbladoppervlak-uitvoering, agentische perceptie en belichaamde beslissingsroutering in een gedeelde fysieke omgeving. Projectpagina: https://dexholdem.github.io/Dexholdem/.

English

Evaluating embodied systems on real dexterous hardware requires more than isolated primitive skills: an agent must perceive a changing tabletop scene, choose a context-appropriate action, execute it with a dexterous hand, and leave the scene usable for later decisions. We introduce DexHoldem, a real-world system-level benchmark built around Texas Hold'em dexterous manipulation with a ShadowHand. DexHoldem provides 1,470 teleoperated demonstrations across 14 Texas Hold'em manipulation primitives, a standardized physical policy benchmark, and an agentic perception benchmark that tests whether agents can recover the structured game state needed for embodied decision making. On primitive execution, π_{0.5} obtains the highest task completion rate (61.2%), while π_{0.5} and π_0 tie on scene-preserving success rate (47.5%). On agentic perception, Opus 4.7 obtains the best strict problem-level accuracy (34.3%), while GPT 5.5 obtains the best average field-wise accuracy (66.8%), exposing a gap between isolated visual sub-capabilities and complete routing-relevant state recovery. Finally, we instantiate the full embodied-agent loop in three case studies, where waiting, recovery dispatches, human-help requests, and repeated primitive execution reveal how perception and policy errors accumulate during closed-loop deployment. DexHoldem therefore evaluates dexterous tabletop execution, agentic perception, and embodied decision routing in a shared physical setting. Project page: https://dexholdem.github.io/Dexholdem/.