DexHoldem: Игра в Техасский Холдем с помощью ловкой воплощённой системы

Аннотация

Оценка воплощенных систем на реальном ловком оборудовании требует не просто изолированных примитивных навыков: агент должен воспринимать изменяющуюся сцену на столе, выбирать контекстно-соответствующее действие, выполнять его с помощью ловкой руки и оставлять сцену пригодной для последующих решений. Мы представляем DexHoldem — эталонный тест системного уровня для реального мира, построенный на основе ловкой манипуляции в Техасском Холдеме с использованием ShadowHand. DexHoldem предоставляет 1 470 телеуправляемых демонстраций по 14 примитивам манипуляции в Техасском Холдеме, стандартизированный эталон физического управления и эталон агентного восприятия, проверяющий, способны ли агенты восстанавливать структурированное состояние игры, необходимое для воплощенного принятия решений. В выполнении примитивов π_{0.5} достигает наивысшей частоты завершения задач (61,2%), в то время как π_{0.5} и π_0 делят лидерство по показателю сохранения сцены (47,5%). В агентном восприятии Opus 4.7 демонстрирует наилучшую строгую точность на уровне задач (34,3%), а GPT 5.5 — наилучшую среднюю точность по полям (66,8%), что выявляет разрыв между изолированными визуальными подспособностями и полным восстановлением состояния, релевантным маршрутизации. Наконец, мы реализуем полный цикл воплощенного агента в трех тематических исследованиях, где ожидание, диспетчеризация восстановления, запросы помощи от человека и повторное выполнение примитивов показывают, как ошибки восприятия и политики накапливаются в ходе замкнутого развертывания. Таким образом, DexHoldem оценивает ловкое выполнение действий на столе, агентное восприятие и воплощенную маршрутизацию решений в единой физической среде. Страница проекта: https://dexholdem.github.io/Dexholdem/.

English

Evaluating embodied systems on real dexterous hardware requires more than isolated primitive skills: an agent must perceive a changing tabletop scene, choose a context-appropriate action, execute it with a dexterous hand, and leave the scene usable for later decisions. We introduce DexHoldem, a real-world system-level benchmark built around Texas Hold'em dexterous manipulation with a ShadowHand. DexHoldem provides 1,470 teleoperated demonstrations across 14 Texas Hold'em manipulation primitives, a standardized physical policy benchmark, and an agentic perception benchmark that tests whether agents can recover the structured game state needed for embodied decision making. On primitive execution, π_{0.5} obtains the highest task completion rate (61.2%), while π_{0.5} and π_0 tie on scene-preserving success rate (47.5%). On agentic perception, Opus 4.7 obtains the best strict problem-level accuracy (34.3%), while GPT 5.5 obtains the best average field-wise accuracy (66.8%), exposing a gap between isolated visual sub-capabilities and complete routing-relevant state recovery. Finally, we instantiate the full embodied-agent loop in three case studies, where waiting, recovery dispatches, human-help requests, and repeated primitive execution reveal how perception and policy errors accumulate during closed-loop deployment. DexHoldem therefore evaluates dexterous tabletop execution, agentic perception, and embodied decision routing in a shared physical setting. Project page: https://dexholdem.github.io/Dexholdem/.