InfiGUI-R1: Avanzando en agentes GUI multimodales desde actores reactivos hasta razonadores deliberativos
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners
April 19, 2025
Autores: Yuhang Liu, Pengxiang Li, Congkai Xie, Xavier Hu, Xiaotian Han, Shengyu Zhang, Hongxia Yang, Fei Wu
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han impulsado a los Agentes de Interfaz Gráfica de Usuario (GUI), mostrando potencial para automatizar tareas en dispositivos informáticos. Trabajos recientes han comenzado a explorar el razonamiento en tareas de GUI con resultados alentadores. Sin embargo, muchos enfoques actuales dependen de plantillas de razonamiento diseñadas manualmente, lo que puede resultar en un razonamiento insuficientemente robusto y adaptable para entornos de GUI complejos. Mientras tanto, algunos agentes existentes continúan operando como Actores Reactivos, basándose principalmente en un razonamiento implícito que puede carecer de la profundidad necesaria para tareas de GUI que requieren planificación y recuperación de errores. Argumentamos que avanzar en estos agentes requiere un cambio de la actuación reactiva hacia una actuación basada en un razonamiento deliberado. Para facilitar esta transformación, presentamos InfiGUI-R1, un agente de GUI basado en MLLM desarrollado a través de nuestro marco Actor2Reasoner, un enfoque de entrenamiento en dos etapas centrado en el razonamiento diseñado para evolucionar progresivamente a los agentes de Actores Reactivos a Razonadores Deliberativos. La primera etapa, Inyección de Razonamiento, se centra en establecer un razonador básico. Empleamos la Destilación de Razonamiento Espacial para transferir capacidades de razonamiento espacial multimodal de modelos maestros a MLLMs a través de trayectorias con pasos de razonamiento explícitos, permitiendo que los modelos integren información visual-espacial de GUI con razonamiento lógico antes de la generación de acciones. La segunda etapa, Mejora de la Deliberación, refina el razonador básico en uno deliberativo utilizando Aprendizaje por Refuerzo. Esta etapa introduce dos enfoques: Guía de Sub-objetivos, que recompensa a los modelos por generar sub-objetivos intermedios precisos, y Construcción de Escenarios de Recuperación de Errores, que crea escenarios de entrenamiento de fallos y recuperación a partir de pasos identificados como propensos a errores. Los resultados experimentales muestran que InfiGUI-R1 logra un rendimiento sólido en tareas de anclaje de GUI y trayectorias. Recursos disponibles en https://github.com/Reallm-Labs/InfiGUI-R1.
English
Multimodal Large Language Models (MLLMs) have powered Graphical User
Interface (GUI) Agents, showing promise in automating tasks on computing
devices. Recent works have begun exploring reasoning in GUI tasks with
encouraging results. However, many current approaches rely on manually designed
reasoning templates, which may result in reasoning that is not sufficiently
robust and adaptive for complex GUI environments. Meanwhile, some existing
agents continue to operate as Reactive Actors, relying primarily on implicit
reasoning that may lack sufficient depth for GUI tasks demanding planning and
error recovery. We argue that advancing these agents requires a shift from
reactive acting towards acting based on deliberate reasoning. To facilitate
this transformation, we introduce InfiGUI-R1, an MLLM-based GUI agent developed
through our Actor2Reasoner framework, a reasoning-centric, two-stage training
approach designed to progressively evolve agents from Reactive Actors to
Deliberative Reasoners. The first stage, Reasoning Injection, focuses on
establishing a basic reasoner. We employ Spatial Reasoning Distillation to
transfer cross-modal spatial reasoning capabilities from teacher models to
MLLMs through trajectories with explicit reasoning steps, enabling models to
integrate GUI visual-spatial information with logical reasoning before action
generation. The second stage, Deliberation Enhancement, refines the basic
reasoner into a deliberative one using Reinforcement Learning. This stage
introduces two approaches: Sub-goal Guidance, which rewards models for
generating accurate intermediate sub-goals, and Error Recovery Scenario
Construction, which creates failure-and-recovery training scenarios from
identified prone-to-error steps. Experimental results show InfiGUI-R1 achieves
strong performance in GUI grounding and trajectory tasks. Resources at
https://github.com/Reallm-Labs/InfiGUI-R1.Summary
AI-Generated Summary