InfiGUI-R1: Evoluzione degli agenti GUI multimodali da attori reattivi a ragionatori deliberativi
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners
April 19, 2025
Autori: Yuhang Liu, Pengxiang Li, Congkai Xie, Xavier Hu, Xiaotian Han, Shengyu Zhang, Hongxia Yang, Fei Wu
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Scala (MLLM) hanno alimentato gli Agenti per Interfacce Grafiche (GUI), dimostrando potenziale nell'automatizzazione di attività su dispositivi informatici. Recenti lavori hanno iniziato a esplorare il ragionamento nei compiti GUI con risultati incoraggianti. Tuttavia, molti approcci attuali si basano su modelli di ragionamento progettati manualmente, il che può portare a un ragionamento non sufficientemente robusto e adattivo per ambienti GUI complessi. Nel frattempo, alcuni agenti esistenti continuano a operare come Attori Reattivi, affidandosi principalmente a un ragionamento implicito che potrebbe non essere sufficientemente approfondito per compiti GUI che richiedono pianificazione e recupero dagli errori. Sosteniamo che il progresso di questi agenti richieda un passaggio dall'agire reattivo all'agire basato su un ragionamento deliberato. Per facilitare questa trasformazione, introduciamo InfiGUI-R1, un agente GUI basato su MLLM sviluppato attraverso il nostro framework Actor2Reasoner, un approccio di formazione in due fasi incentrato sul ragionamento, progettato per far evolvere progressivamente gli agenti da Attori Reattivi a Ragionatori Deliberativi. La prima fase, Iniezione del Ragionamento, si concentra sull'istituzione di un ragionatore di base. Utilizziamo la Distillazione del Ragionamento Spaziale per trasferire capacità di ragionamento spaziale cross-modale da modelli insegnanti a MLLM attraverso traiettorie con passaggi di ragionamento espliciti, consentendo ai modelli di integrare informazioni visivo-spaziali GUI con il ragionamento logico prima della generazione delle azioni. La seconda fase, Miglioramento della Deliberazione, affina il ragionatore di base in uno deliberativo utilizzando l'Apprendimento per Rinforzo. Questa fase introduce due approcci: Guida ai Sotto-obiettivi, che premia i modelli per la generazione di sotto-obiettivi intermedi accurati, e Costruzione di Scenari di Recupero dagli Errori, che crea scenari di formazione di fallimento-e-recupero da passaggi identificati come propensi agli errori. I risultati sperimentali mostrano che InfiGUI-R1 raggiunge prestazioni solide nei compiti di ancoraggio GUI e nelle traiettorie. Risorse disponibili su https://github.com/Reallm-Labs/InfiGUI-R1.
English
Multimodal Large Language Models (MLLMs) have powered Graphical User
Interface (GUI) Agents, showing promise in automating tasks on computing
devices. Recent works have begun exploring reasoning in GUI tasks with
encouraging results. However, many current approaches rely on manually designed
reasoning templates, which may result in reasoning that is not sufficiently
robust and adaptive for complex GUI environments. Meanwhile, some existing
agents continue to operate as Reactive Actors, relying primarily on implicit
reasoning that may lack sufficient depth for GUI tasks demanding planning and
error recovery. We argue that advancing these agents requires a shift from
reactive acting towards acting based on deliberate reasoning. To facilitate
this transformation, we introduce InfiGUI-R1, an MLLM-based GUI agent developed
through our Actor2Reasoner framework, a reasoning-centric, two-stage training
approach designed to progressively evolve agents from Reactive Actors to
Deliberative Reasoners. The first stage, Reasoning Injection, focuses on
establishing a basic reasoner. We employ Spatial Reasoning Distillation to
transfer cross-modal spatial reasoning capabilities from teacher models to
MLLMs through trajectories with explicit reasoning steps, enabling models to
integrate GUI visual-spatial information with logical reasoning before action
generation. The second stage, Deliberation Enhancement, refines the basic
reasoner into a deliberative one using Reinforcement Learning. This stage
introduces two approaches: Sub-goal Guidance, which rewards models for
generating accurate intermediate sub-goals, and Error Recovery Scenario
Construction, which creates failure-and-recovery training scenarios from
identified prone-to-error steps. Experimental results show InfiGUI-R1 achieves
strong performance in GUI grounding and trajectory tasks. Resources at
https://github.com/Reallm-Labs/InfiGUI-R1.Summary
AI-Generated Summary