ChatPaper.aiChatPaper

AgentTrek: Agent Trajectsynthese via Begeleide Herhaling met Webtutorials

AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials

December 12, 2024
Auteurs: Yiheng Xu, Dunjie Lu, Zhennan Shen, Junli Wang, Zekun Wang, Yuchen Mao, Caiming Xiong, Tao Yu
cs.AI

Samenvatting

Grafische gebruikersinterface (GUI) agenten hebben veel potentieel om complexe taken te automatiseren in diverse digitale omgevingen, van webapplicaties tot desktopsoftware. De ontwikkeling van dergelijke agenten wordt echter belemmerd door het gebrek aan hoogwaardige, meerstaps trajectdata die nodig zijn voor effectieve training. Bestaande benaderingen vertrouwen op dure en arbeidsintensieve menselijke annotatie, waardoor ze op grote schaal onhoudbaar zijn. Om dit probleem aan te pakken, stellen we AgentTrek voor, een schaalbaar gegevenssyntheseproces dat hoogwaardige GUI-agenttrajecten genereert door gebruik te maken van webtutorials. Onze methode verzamelt automatisch tutorial-achtige teksten van internet, transformeert ze in taakdoelen met stapsgewijze instructies en maakt gebruik van een visueel-taalmodelagent om hun uitvoering in een echte digitale omgeving te simuleren. Een op VLM gebaseerde evaluator zorgt voor de juistheid van de gegenereerde trajecten. We tonen aan dat het trainen van GUI-agenten met deze gesynthetiseerde trajecten aanzienlijk de verankering en planningsprestaties verbetert ten opzichte van de huidige modellen. Bovendien is onze benadering kostenefficiënter in vergelijking met traditionele menselijke annotatiemethoden. Dit werk benadrukt het potentieel van begeleide herhaling met webtutorials als een levensvatbare strategie voor grootschalige training van GUI-agenten, waardoor de weg wordt vrijgemaakt voor meer capabele en autonome digitale agenten.
English
Graphical User Interface (GUI) agents hold great potential for automating complex tasks across diverse digital environments, from web applications to desktop software. However, the development of such agents is hindered by the lack of high-quality, multi-step trajectory data required for effective training. Existing approaches rely on expensive and labor-intensive human annotation, making them unsustainable at scale. To address this challenge, we propose AgentTrek, a scalable data synthesis pipeline that generates high-quality GUI agent trajectories by leveraging web tutorials. Our method automatically gathers tutorial-like texts from the internet, transforms them into task goals with step-by-step instructions, and employs a visual-language model agent to simulate their execution in a real digital environment. A VLM-based evaluator ensures the correctness of the generated trajectories. We demonstrate that training GUI agents with these synthesized trajectories significantly improves their grounding and planning performance over the current models. Moreover, our approach is more cost-efficient compared to traditional human annotation methods. This work underscores the potential of guided replay with web tutorials as a viable strategy for large-scale GUI agent training, paving the way for more capable and autonomous digital agents.
PDF292December 13, 2024