DexHoldem: Игра в Техасский Холдем с помощью ловкой воплощённой системы
DexHoldem: Playing Texas Hold'em with Dexterous Embodied System
May 18, 2026
Авторы: Feng Chen, Tianzhe Chu, Li Sun, Pei Zhou, Zhuxiu Xu, Shenghua Gao, Yuexiang Zhai, Yanchao Yang, Yi Ma
cs.AI
Аннотация
Оценка воплощенных систем на реальном ловком оборудовании требует не просто изолированных примитивных навыков: агент должен воспринимать изменяющуюся сцену на столе, выбирать контекстно-соответствующее действие, выполнять его с помощью ловкой руки и оставлять сцену пригодной для последующих решений. Мы представляем DexHoldem — эталонный тест системного уровня для реального мира, построенный на основе ловкой манипуляции в Техасском Холдеме с использованием ShadowHand. DexHoldem предоставляет 1 470 телеуправляемых демонстраций по 14 примитивам манипуляции в Техасском Холдеме, стандартизированный эталон физического управления и эталон агентного восприятия, проверяющий, способны ли агенты восстанавливать структурированное состояние игры, необходимое для воплощенного принятия решений. В выполнении примитивов π_{0.5} достигает наивысшей частоты завершения задач (61,2%), в то время как π_{0.5} и π_0 делят лидерство по показателю сохранения сцены (47,5%). В агентном восприятии Opus 4.7 демонстрирует наилучшую строгую точность на уровне задач (34,3%), а GPT 5.5 — наилучшую среднюю точность по полям (66,8%), что выявляет разрыв между изолированными визуальными подспособностями и полным восстановлением состояния, релевантным маршрутизации. Наконец, мы реализуем полный цикл воплощенного агента в трех тематических исследованиях, где ожидание, диспетчеризация восстановления, запросы помощи от человека и повторное выполнение примитивов показывают, как ошибки восприятия и политики накапливаются в ходе замкнутого развертывания. Таким образом, DexHoldem оценивает ловкое выполнение действий на столе, агентное восприятие и воплощенную маршрутизацию решений в единой физической среде. Страница проекта: https://dexholdem.github.io/Dexholdem/.
English
Evaluating embodied systems on real dexterous hardware requires more than isolated primitive skills: an agent must perceive a changing tabletop scene, choose a context-appropriate action, execute it with a dexterous hand, and leave the scene usable for later decisions. We introduce DexHoldem, a real-world system-level benchmark built around Texas Hold'em dexterous manipulation with a ShadowHand. DexHoldem provides 1,470 teleoperated demonstrations across 14 Texas Hold'em manipulation primitives, a standardized physical policy benchmark, and an agentic perception benchmark that tests whether agents can recover the structured game state needed for embodied decision making. On primitive execution, π_{0.5} obtains the highest task completion rate (61.2%), while π_{0.5} and π_0 tie on scene-preserving success rate (47.5%). On agentic perception, Opus 4.7 obtains the best strict problem-level accuracy (34.3%), while GPT 5.5 obtains the best average field-wise accuracy (66.8%), exposing a gap between isolated visual sub-capabilities and complete routing-relevant state recovery. Finally, we instantiate the full embodied-agent loop in three case studies, where waiting, recovery dispatches, human-help requests, and repeated primitive execution reveal how perception and policy errors accumulate during closed-loop deployment. DexHoldem therefore evaluates dexterous tabletop execution, agentic perception, and embodied decision routing in a shared physical setting. Project page: https://dexholdem.github.io/Dexholdem/.