OS-ATLAS: Un modello di azione di base per agenti GUI generalistiOS-ATLAS: A Foundation Action Model for Generalist GUI Agents
Gli sforzi attuali nella costruzione di agenti GUI si basano pesantemente sulla disponibilità di robusti Modelli Visione-Linguaggio commerciali (VLM) come GPT-4o e GeminiProVision. Gli operatori sono spesso riluttanti ad utilizzare VLM open-source a causa del significativo ritardo nelle prestazioni rispetto ai loro corrispettivi closed-source, in particolare nei casi di ancoraggio GUI e scenari Out-Of-Distribution (OOD). Per facilitare futura ricerca in questo ambito, abbiamo sviluppato OS-Atlas - un modello d'azione GUI fondamentale che eccelle in ancoraggio GUI e compiti agentici OOD attraverso innovazioni sia nei dati che nella modellazione. Abbiamo investito un notevole sforzo ingegneristico nello sviluppo di un toolkit open-source per la sintesi di dati di ancoraggio GUI su diverse piattaforme, tra cui Windows, Linux, MacOS, Android e il web. Sfruttando questo toolkit, stiamo rilasciando il più grande corpus di ancoraggio GUI open-source multi-piattaforma ad oggi, che contiene oltre 13 milioni di elementi GUI. Questo dataset, combinato con innovazioni nella formazione del modello, fornisce una solida base per OS-Atlas per comprendere screenshot GUI e generalizzare a interfacce non viste. Attraverso una valutazione estensiva su sei benchmark che coprono tre diverse piattaforme (mobile, desktop e web), OS-Atlas dimostra significativi miglioramenti delle prestazioni rispetto ai modelli state-of-the-art precedenti. La nostra valutazione rivela anche preziose intuizioni per migliorare continuamente e scalare le capacità agentiche dei VLM open-source.