InfiGUI-R1: Evoluzione degli agenti GUI multimodali da attori reattivi a ragionatori deliberativi

Abstract

I Modelli Linguistici Multimodali di Grande Scala (MLLM) hanno alimentato gli Agenti per Interfacce Grafiche (GUI), dimostrando potenziale nell'automatizzazione di attività su dispositivi informatici. Recenti lavori hanno iniziato a esplorare il ragionamento nei compiti GUI con risultati incoraggianti. Tuttavia, molti approcci attuali si basano su modelli di ragionamento progettati manualmente, il che può portare a un ragionamento non sufficientemente robusto e adattivo per ambienti GUI complessi. Nel frattempo, alcuni agenti esistenti continuano a operare come Attori Reattivi, affidandosi principalmente a un ragionamento implicito che potrebbe non essere sufficientemente approfondito per compiti GUI che richiedono pianificazione e recupero dagli errori. Sosteniamo che il progresso di questi agenti richieda un passaggio dall'agire reattivo all'agire basato su un ragionamento deliberato. Per facilitare questa trasformazione, introduciamo InfiGUI-R1, un agente GUI basato su MLLM sviluppato attraverso il nostro framework Actor2Reasoner, un approccio di formazione in due fasi incentrato sul ragionamento, progettato per far evolvere progressivamente gli agenti da Attori Reattivi a Ragionatori Deliberativi. La prima fase, Iniezione del Ragionamento, si concentra sull'istituzione di un ragionatore di base. Utilizziamo la Distillazione del Ragionamento Spaziale per trasferire capacità di ragionamento spaziale cross-modale da modelli insegnanti a MLLM attraverso traiettorie con passaggi di ragionamento espliciti, consentendo ai modelli di integrare informazioni visivo-spaziali GUI con il ragionamento logico prima della generazione delle azioni. La seconda fase, Miglioramento della Deliberazione, affina il ragionatore di base in uno deliberativo utilizzando l'Apprendimento per Rinforzo. Questa fase introduce due approcci: Guida ai Sotto-obiettivi, che premia i modelli per la generazione di sotto-obiettivi intermedi accurati, e Costruzione di Scenari di Recupero dagli Errori, che crea scenari di formazione di fallimento-e-recupero da passaggi identificati come propensi agli errori. I risultati sperimentali mostrano che InfiGUI-R1 raggiunge prestazioni solide nei compiti di ancoraggio GUI e nelle traiettorie. Risorse disponibili su https://github.com/Reallm-Labs/InfiGUI-R1.

English

Multimodal Large Language Models (MLLMs) have powered Graphical User Interface (GUI) Agents, showing promise in automating tasks on computing devices. Recent works have begun exploring reasoning in GUI tasks with encouraging results. However, many current approaches rely on manually designed reasoning templates, which may result in reasoning that is not sufficiently robust and adaptive for complex GUI environments. Meanwhile, some existing agents continue to operate as Reactive Actors, relying primarily on implicit reasoning that may lack sufficient depth for GUI tasks demanding planning and error recovery. We argue that advancing these agents requires a shift from reactive acting towards acting based on deliberate reasoning. To facilitate this transformation, we introduce InfiGUI-R1, an MLLM-based GUI agent developed through our Actor2Reasoner framework, a reasoning-centric, two-stage training approach designed to progressively evolve agents from Reactive Actors to Deliberative Reasoners. The first stage, Reasoning Injection, focuses on establishing a basic reasoner. We employ Spatial Reasoning Distillation to transfer cross-modal spatial reasoning capabilities from teacher models to MLLMs through trajectories with explicit reasoning steps, enabling models to integrate GUI visual-spatial information with logical reasoning before action generation. The second stage, Deliberation Enhancement, refines the basic reasoner into a deliberative one using Reinforcement Learning. This stage introduces two approaches: Sub-goal Guidance, which rewards models for generating accurate intermediate sub-goals, and Error Recovery Scenario Construction, which creates failure-and-recovery training scenarios from identified prone-to-error steps. Experimental results show InfiGUI-R1 achieves strong performance in GUI grounding and trajectory tasks. Resources at https://github.com/Reallm-Labs/InfiGUI-R1.

InfiGUI-R1: Evoluzione degli agenti GUI multimodali da attori reattivi a ragionatori deliberativi

InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners

Abstract

Support