DexHoldem: Texas Hold'em spielen mit einem geschickten, verkörperten System

Zusammenfassung

Die Bewertung verkörperter Systeme auf echter geschickter Hardware erfordert mehr als isolierte primitive Fähigkeiten: Ein Agent muss eine sich verändernde Tischszene wahrnehmen, eine kontextgerechte Aktion auswählen, diese mit einer geschickten Hand ausführen und die Szene für spätere Entscheidungen nutzbar hinterlassen. Wir stellen DexHoldem vor, einen realen systemweiten Benchmark, der auf der geschickten Manipulation von Texas Hold'em mit einer ShadowHand aufbaut. DexHoldem bietet 1.470 teleoperierte Demonstrationen über 14 Texas Hold'em-Manipulationsprimitive, einen standardisierten Benchmark für physische Strategien sowie einen agentischen Wahrnehmungsbenchmark, der testet, ob Agenten den strukturierten Spielzustand wiederherstellen können, der für die verkörperte Entscheidungsfindung benötigt wird. Bei der Ausführung von Primitiven erzielt π_{0.5} die höchste Aufgabenerfüllungsrate (61,2%), während π_{0.5} und π_0 bei der szenenerhaltenden Erfolgsrate gleichauf liegen (47,5%). Bei der agentischen Wahrnehmung erzielt Opus 4.7 die beste strenge problembezogene Genauigkeit (34,3%), während GPT 5.5 die beste durchschnittliche feldweise Genauigkeit (66,8%) erzielt, was eine Kluft zwischen isolierten visuellen Teilfähigkeiten und der vollständigen routingrelevanten Zustandswiederherstellung aufzeigt. Schließlich instanziieren wir den vollständigen verkörperten Agentenkreislauf in drei Fallstudien, in denen Warten, Wiederherstellungsdispositionen, Hilfsanfragen an Menschen und wiederholte Ausführung von Primitiven zeigen, wie sich Wahrnehmungs- und Policy-Fehler während des geschlossenen Einsatzes ansammeln. DexHoldem bewertet daher die geschickte Tischausführung, die agentische Wahrnehmung und die verkörperte Entscheidungslenkung in einer gemeinsamen physischen Umgebung. Projektseite: https://dexholdem.github.io/Dexholdem/.

English

Evaluating embodied systems on real dexterous hardware requires more than isolated primitive skills: an agent must perceive a changing tabletop scene, choose a context-appropriate action, execute it with a dexterous hand, and leave the scene usable for later decisions. We introduce DexHoldem, a real-world system-level benchmark built around Texas Hold'em dexterous manipulation with a ShadowHand. DexHoldem provides 1,470 teleoperated demonstrations across 14 Texas Hold'em manipulation primitives, a standardized physical policy benchmark, and an agentic perception benchmark that tests whether agents can recover the structured game state needed for embodied decision making. On primitive execution, π_{0.5} obtains the highest task completion rate (61.2%), while π_{0.5} and π_0 tie on scene-preserving success rate (47.5%). On agentic perception, Opus 4.7 obtains the best strict problem-level accuracy (34.3%), while GPT 5.5 obtains the best average field-wise accuracy (66.8%), exposing a gap between isolated visual sub-capabilities and complete routing-relevant state recovery. Finally, we instantiate the full embodied-agent loop in three case studies, where waiting, recovery dispatches, human-help requests, and repeated primitive execution reveal how perception and policy errors accumulate during closed-loop deployment. DexHoldem therefore evaluates dexterous tabletop execution, agentic perception, and embodied decision routing in a shared physical setting. Project page: https://dexholdem.github.io/Dexholdem/.