ChatPaper.aiChatPaper

DexHoldem: Jogando Texas Hold'em com um Sistema Corporizado Destro

DexHoldem: Playing Texas Hold'em with Dexterous Embodied System

May 18, 2026
Autores: Feng Chen, Tianzhe Chu, Li Sun, Pei Zhou, Zhuxiu Xu, Shenghua Gao, Yuexiang Zhai, Yanchao Yang, Yi Ma
cs.AI

Resumo

Avaliar sistemas incorporados em hardware hábil real exige mais do que habilidades primitivas isoladas: um agente deve perceber uma cena de mesa que muda, escolher uma ação adequada ao contexto, executá-la com uma mão hábil e deixar a cena utilizável para decisões posteriores. Apresentamos o DexHoldem, um benchmark de nível de sistema no mundo real desenvolvido em torno da manipulação hábil de Texas Hold'em com uma ShadowHand. O DexHoldem fornece 1.470 demonstrações teleoperadas em 14 primitivas de manipulação de Texas Hold'em, um benchmark físico de políticas padronizado e um benchmark de percepção agentiva que testa se os agentes conseguem recuperar o estado estruturado do jogo necessário para a tomada de decisão incorporada. Na execução primitiva, π_{0.5} obtém a maior taxa de conclusão de tarefa (61,2%), enquanto π_{0.5} e π_0 empatam na taxa de sucesso de preservação de cena (47,5%). Na percepção agentiva, Opus 4.7 obtém a melhor precisão estrita em nível de problema (34,3%), enquanto GPT 5.5 obtém a melhor precisão média por campo (66,8%), expondo uma lacuna entre subcapacidades visuais isoladas e a recuperação completa do estado relevante para o roteamento. Finalmente, instanciamos o loop completo do agente incorporado em três estudos de caso, onde espera, despachos de recuperação, solicitações de ajuda humana e execução repetida de primitivas revelam como erros de percepção e política se acumulam durante a implantação em malha fechada. O DexHoldem, portanto, avalia execução hábil em mesa, percepção agentiva e roteamento de decisão incorporado em um cenário físico compartilhado. Página do projeto: https://dexholdem.github.io/Dexholdem/.
English
Evaluating embodied systems on real dexterous hardware requires more than isolated primitive skills: an agent must perceive a changing tabletop scene, choose a context-appropriate action, execute it with a dexterous hand, and leave the scene usable for later decisions. We introduce DexHoldem, a real-world system-level benchmark built around Texas Hold'em dexterous manipulation with a ShadowHand. DexHoldem provides 1,470 teleoperated demonstrations across 14 Texas Hold'em manipulation primitives, a standardized physical policy benchmark, and an agentic perception benchmark that tests whether agents can recover the structured game state needed for embodied decision making. On primitive execution, π_{0.5} obtains the highest task completion rate (61.2%), while π_{0.5} and π_0 tie on scene-preserving success rate (47.5%). On agentic perception, Opus 4.7 obtains the best strict problem-level accuracy (34.3%), while GPT 5.5 obtains the best average field-wise accuracy (66.8%), exposing a gap between isolated visual sub-capabilities and complete routing-relevant state recovery. Finally, we instantiate the full embodied-agent loop in three case studies, where waiting, recovery dispatches, human-help requests, and repeated primitive execution reveal how perception and policy errors accumulate during closed-loop deployment. DexHoldem therefore evaluates dexterous tabletop execution, agentic perception, and embodied decision routing in a shared physical setting. Project page: https://dexholdem.github.io/Dexholdem/.