ChatPaper.aiChatPaper

O Surgimento do Agente GUI: Um Estudo de Caso Preliminar com o Computador Claude 3.5

The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use

November 15, 2024
Autores: Siyuan Hu, Mingyu Ouyang, Difei Gao, Mike Zheng Shou
cs.AI

Resumo

O modelo recentemente lançado, Claude 3.5 Computer Use, destaca-se como o primeiro modelo de IA de ponta a oferecer uso de computador em beta público como um agente de interface gráfica do usuário (GUI). Como um beta inicial, sua capacidade em um ambiente complexo do mundo real permanece desconhecida. Neste estudo de caso para explorar o Claude 3.5 Computer Use, curamos e organizamos uma coleção de tarefas cuidadosamente projetadas abrangendo uma variedade de domínios e softwares. Observações desses casos demonstram a capacidade sem precedentes do Claude 3.5 Computer Use em ações de linguagem para desktop de ponta a ponta. Juntamente com este estudo, fornecemos um framework de agente pronto para uso para implantar modelos de automação de GUI baseados em API com implementação fácil. Nossos estudos de caso visam mostrar uma base de capacidades e limitações do Claude 3.5 Computer Use com análises detalhadas e trazer à tona questões sobre planejamento, ação e crítica, que devem ser consideradas para melhorias futuras. Esperamos que essa exploração preliminar inspire pesquisas futuras na comunidade de agentes de GUI. Todos os casos de teste no artigo podem ser testados através do projeto: https://github.com/showlab/computer_use_ootb.
English
The recently released model, Claude 3.5 Computer Use, stands out as the first frontier AI model to offer computer use in public beta as a graphical user interface (GUI) agent. As an early beta, its capability in the real-world complex environment remains unknown. In this case study to explore Claude 3.5 Computer Use, we curate and organize a collection of carefully designed tasks spanning a variety of domains and software. Observations from these cases demonstrate Claude 3.5 Computer Use's unprecedented ability in end-to-end language to desktop actions. Along with this study, we provide an out-of-the-box agent framework for deploying API-based GUI automation models with easy implementation. Our case studies aim to showcase a groundwork of capabilities and limitations of Claude 3.5 Computer Use with detailed analyses and bring to the fore questions about planning, action, and critic, which must be considered for future improvement. We hope this preliminary exploration will inspire future research into the GUI agent community. All the test cases in the paper can be tried through the project: https://github.com/showlab/computer_use_ootb.

Summary

AI-Generated Summary

PDF353November 18, 2024