OS-Genesis: Automazione della costruzione della traiettoria dell'agente GUI tramite sintesi inversa delle attivitàOS-Genesis: Automating GUI Agent Trajectory Construction via Reverse
Task Synthesis
Gli agenti dell'Interfaccia Utente Grafica (GUI) alimentati da Modelli Visione-Linguaggio (VLM) hanno dimostrato capacità di controllo del computer simili a quelle umane. Nonostante la loro utilità nel promuovere l'automazione digitale, persiste un collo di bottiglia critico: la raccolta di dati di traiettoria di alta qualità per l'addestramento. Le pratiche comuni per la raccolta di tali dati si basano sulla supervisione umana o sulla generazione di dati sintetici attraverso l'esecuzione di compiti predefiniti, che sono o risorse-intensive o non in grado di garantire la qualità dei dati. Inoltre, questi metodi soffrono di una limitata diversità dei dati e di significativi divari tra i dati sintetici e gli ambienti reali. Per affrontare queste sfide, proponiamo OS-Genesis, un nuovo processo di sintesi dei dati GUI che ribalta il tradizionale processo di raccolta delle traiettorie. Invece di fare affidamento su compiti predefiniti, OS-Genesis consente agli agenti di percepire prima gli ambienti e di eseguire interazioni passo dopo passo, per poi derivare retrospettivamente compiti di alta qualità per consentire l'esplorazione a livello di traiettoria. Viene quindi impiegato un modello di ricompensa per le traiettorie per garantire la qualità delle traiettorie generate. Dimostriamo che addestrare agenti GUI con OS-Genesis migliora significativamente le loro prestazioni su benchmark online altamente impegnativi. Un'analisi approfondita convalida ulteriormente l'efficienza di OS-Genesis e la sua qualità e diversità dei dati superiori rispetto ai metodi di sintesi esistenti. I nostri codici, dati e checkpoint sono disponibili su https://qiushisun.github.io/OS-Genesis-Home/{Homepage di OS-Genesis}.