DexHoldem: Jogando Texas Hold'em com um Sistema Corporizado Destro

Resumo

Avaliar sistemas incorporados em hardware hábil real exige mais do que habilidades primitivas isoladas: um agente deve perceber uma cena de mesa que muda, escolher uma ação adequada ao contexto, executá-la com uma mão hábil e deixar a cena utilizável para decisões posteriores. Apresentamos o DexHoldem, um benchmark de nível de sistema no mundo real desenvolvido em torno da manipulação hábil de Texas Hold'em com uma ShadowHand. O DexHoldem fornece 1.470 demonstrações teleoperadas em 14 primitivas de manipulação de Texas Hold'em, um benchmark físico de políticas padronizado e um benchmark de percepção agentiva que testa se os agentes conseguem recuperar o estado estruturado do jogo necessário para a tomada de decisão incorporada. Na execução primitiva, π_{0.5} obtém a maior taxa de conclusão de tarefa (61,2%), enquanto π_{0.5} e π_0 empatam na taxa de sucesso de preservação de cena (47,5%). Na percepção agentiva, Opus 4.7 obtém a melhor precisão estrita em nível de problema (34,3%), enquanto GPT 5.5 obtém a melhor precisão média por campo (66,8%), expondo uma lacuna entre subcapacidades visuais isoladas e a recuperação completa do estado relevante para o roteamento. Finalmente, instanciamos o loop completo do agente incorporado em três estudos de caso, onde espera, despachos de recuperação, solicitações de ajuda humana e execução repetida de primitivas revelam como erros de percepção e política se acumulam durante a implantação em malha fechada. O DexHoldem, portanto, avalia execução hábil em mesa, percepção agentiva e roteamento de decisão incorporado em um cenário físico compartilhado. Página do projeto: https://dexholdem.github.io/Dexholdem/.

English

Evaluating embodied systems on real dexterous hardware requires more than isolated primitive skills: an agent must perceive a changing tabletop scene, choose a context-appropriate action, execute it with a dexterous hand, and leave the scene usable for later decisions. We introduce DexHoldem, a real-world system-level benchmark built around Texas Hold'em dexterous manipulation with a ShadowHand. DexHoldem provides 1,470 teleoperated demonstrations across 14 Texas Hold'em manipulation primitives, a standardized physical policy benchmark, and an agentic perception benchmark that tests whether agents can recover the structured game state needed for embodied decision making. On primitive execution, π_{0.5} obtains the highest task completion rate (61.2%), while π_{0.5} and π_0 tie on scene-preserving success rate (47.5%). On agentic perception, Opus 4.7 obtains the best strict problem-level accuracy (34.3%), while GPT 5.5 obtains the best average field-wise accuracy (66.8%), exposing a gap between isolated visual sub-capabilities and complete routing-relevant state recovery. Finally, we instantiate the full embodied-agent loop in three case studies, where waiting, recovery dispatches, human-help requests, and repeated primitive execution reveal how perception and policy errors accumulate during closed-loop deployment. DexHoldem therefore evaluates dexterous tabletop execution, agentic perception, and embodied decision routing in a shared physical setting. Project page: https://dexholdem.github.io/Dexholdem/.