Laboratório de Exploração de Interface Gráfica: Aprimorando a Navegação em Telas de Agentes por Meio de Aprendizado por Reforço Multi-etapas

Resumo

Com o rápido desenvolvimento dos Grandes Modelos de Linguagem Visual, o foco das tarefas de agentes de Interface Gráfica do Utilizador (IGU) desloca-se de tarefas de ecrã único para desafios complexos de navegação entre ecrãs. No entanto, ambientes reais de IGU, como software para PC e aplicações móveis, são frequentemente complexos e proprietários, dificultando a obtenção da informação ambiental abrangente necessária para o treino e avaliação de agentes. Esta limitação impede a investigação sistemática e a comparação de desempenho das capacidades de navegação dos agentes. Para superar esta limitação, introduzimos o GUI Exploration Lab, um motor de ambiente de simulação para investigação em navegação de agentes de IGU que permite a definição e composição flexível de ecrãs, ícones e grafos de navegação, fornecendo simultaneamente acesso total à informação ambiental para um treino e avaliação abrangentes dos agentes. Através de experiências extensivas, descobrimos que o ajuste fino supervisionado permite uma memorização eficaz do conhecimento fundamental, servindo como base crucial para o treino subsequente. Com base nisto, a aprendizagem por reforço de turno único aumenta ainda mais a generalização para cenários não vistos. Finalmente, a aprendizagem por reforço multi-turno incentiva o desenvolvimento de estratégias de exploração através de tentativa e erro interativa, levando a melhorias adicionais no desempenho da navegação entre ecrãs. Validamos os nossos métodos em benchmarks estáticos e interativos, demonstrando que as nossas descobertas generalizam-se eficazmente para cenários do mundo real. Estes resultados demonstram as vantagens das abordagens de aprendizagem por reforço na navegação de IGU e oferecem orientações práticas para a construção de agentes de IGU mais capazes e generalizáveis.

English

With the rapid development of Large Vision Language Models, the focus of Graphical User Interface (GUI) agent tasks shifts from single-screen tasks to complex screen navigation challenges. However, real-world GUI environments, such as PC software and mobile Apps, are often complex and proprietary, making it difficult to obtain the comprehensive environment information needed for agent training and evaluation. This limitation hinders systematic investigation and benchmarking of agent navigation capabilities. To address this limitation, we introduce GUI Exploration Lab, a simulation environment engine for GUI agent navigation research that enables flexible definition and composition of screens, icons, and navigation graphs, while providing full access to environment information for comprehensive agent training and evaluation. Through extensive experiments, we find that supervised fine-tuning enables effective memorization of fundamental knowledge, serving as a crucial foundation for subsequent training. Building on this, single-turn reinforcement learning further enhances generalization to unseen scenarios. Finally, multi-turn reinforcement learning encourages the development of exploration strategies through interactive trial and error, leading to further improvements in screen navigation performance. We validate our methods on both static and interactive benchmarks, demonstrating that our findings generalize effectively to real-world scenarios. These findings demonstrate the advantages of reinforcement learning approaches in GUI navigation and offer practical guidance for building more capable and generalizable GUI agents.