OS-Genesis: Automatisierung des Aufbaus von GUI-Agenten-Trajektorien durch umgekehrte AufgabensyntheseOS-Genesis: Automating GUI Agent Trajectory Construction via Reverse
Task Synthesis
Grafische Benutzeroberfläche (GUI)-Agenten, die von Vision-Sprachmodellen (VLMs) betrieben werden, haben eine computergesteuerte Fähigkeit gezeigt, die menschenähnlich ist. Trotz ihres Nutzens zur Förderung der digitalen Automatisierung besteht weiterhin ein kritischer Engpass: die Sammlung hochwertiger Trajektoriendaten für das Training. Gängige Praktiken zur Sammlung solcher Daten beruhen auf menschlicher Überwachung oder der Erzeugung synthetischer Daten durch die Ausführung vordefinierter Aufgaben, die entweder ressourcenintensiv sind oder die Datenqualität nicht garantieren können. Darüber hinaus leiden diese Methoden unter begrenzter Datenvielfalt und signifikanten Unterschieden zwischen synthetischen Daten und realen Umgebungen. Um diese Herausforderungen anzugehen, schlagen wir OS-Genesis vor, eine neuartige GUI-Datensynthesepipeline, die den herkömmlichen Prozess der Trajektoriensammlung umkehrt. Anstatt auf vordefinierten Aufgaben zu beruhen, ermöglicht OS-Genesis den Agenten zunächst, Umgebungen wahrzunehmen und schrittweise Interaktionen durchzuführen, um dann retrospektiv hochwertige Aufgaben abzuleiten, die eine Erkundung auf Trajektorienebene ermöglichen. Ein Trajektorienbelohnungsmodell wird dann eingesetzt, um die Qualität der generierten Trajektorien zu gewährleisten. Wir zeigen, dass das Training von GUI-Agenten mit OS-Genesis ihre Leistung auf hoch anspruchsvollen Online-Benchmarks signifikant verbessert. Eine eingehende Analyse bestätigt weiterhin die Effizienz von OS-Genesis sowie deren überlegene Datenqualität und -vielfalt im Vergleich zu bestehenden Synthesemethoden. Unsere Codes, Daten und Checkpoints sind verfügbar unter https://qiushisun.github.io/OS-Genesis-Home/ {OS-Genesis Homepage}.