ChatPaper.aiChatPaper

InfiGUI-R1: Avanzando en agentes GUI multimodales desde actores reactivos hasta razonadores deliberativos

InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners

April 19, 2025
Autores: Yuhang Liu, Pengxiang Li, Congkai Xie, Xavier Hu, Xiaotian Han, Shengyu Zhang, Hongxia Yang, Fei Wu
cs.AI

Resumen

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han impulsado a los Agentes de Interfaz Gráfica de Usuario (GUI), mostrando potencial para automatizar tareas en dispositivos informáticos. Trabajos recientes han comenzado a explorar el razonamiento en tareas de GUI con resultados alentadores. Sin embargo, muchos enfoques actuales dependen de plantillas de razonamiento diseñadas manualmente, lo que puede resultar en un razonamiento insuficientemente robusto y adaptable para entornos de GUI complejos. Mientras tanto, algunos agentes existentes continúan operando como Actores Reactivos, basándose principalmente en un razonamiento implícito que puede carecer de la profundidad necesaria para tareas de GUI que requieren planificación y recuperación de errores. Argumentamos que avanzar en estos agentes requiere un cambio de la actuación reactiva hacia una actuación basada en un razonamiento deliberado. Para facilitar esta transformación, presentamos InfiGUI-R1, un agente de GUI basado en MLLM desarrollado a través de nuestro marco Actor2Reasoner, un enfoque de entrenamiento en dos etapas centrado en el razonamiento diseñado para evolucionar progresivamente a los agentes de Actores Reactivos a Razonadores Deliberativos. La primera etapa, Inyección de Razonamiento, se centra en establecer un razonador básico. Empleamos la Destilación de Razonamiento Espacial para transferir capacidades de razonamiento espacial multimodal de modelos maestros a MLLMs a través de trayectorias con pasos de razonamiento explícitos, permitiendo que los modelos integren información visual-espacial de GUI con razonamiento lógico antes de la generación de acciones. La segunda etapa, Mejora de la Deliberación, refina el razonador básico en uno deliberativo utilizando Aprendizaje por Refuerzo. Esta etapa introduce dos enfoques: Guía de Sub-objetivos, que recompensa a los modelos por generar sub-objetivos intermedios precisos, y Construcción de Escenarios de Recuperación de Errores, que crea escenarios de entrenamiento de fallos y recuperación a partir de pasos identificados como propensos a errores. Los resultados experimentales muestran que InfiGUI-R1 logra un rendimiento sólido en tareas de anclaje de GUI y trayectorias. Recursos disponibles en https://github.com/Reallm-Labs/InfiGUI-R1.
English
Multimodal Large Language Models (MLLMs) have powered Graphical User Interface (GUI) Agents, showing promise in automating tasks on computing devices. Recent works have begun exploring reasoning in GUI tasks with encouraging results. However, many current approaches rely on manually designed reasoning templates, which may result in reasoning that is not sufficiently robust and adaptive for complex GUI environments. Meanwhile, some existing agents continue to operate as Reactive Actors, relying primarily on implicit reasoning that may lack sufficient depth for GUI tasks demanding planning and error recovery. We argue that advancing these agents requires a shift from reactive acting towards acting based on deliberate reasoning. To facilitate this transformation, we introduce InfiGUI-R1, an MLLM-based GUI agent developed through our Actor2Reasoner framework, a reasoning-centric, two-stage training approach designed to progressively evolve agents from Reactive Actors to Deliberative Reasoners. The first stage, Reasoning Injection, focuses on establishing a basic reasoner. We employ Spatial Reasoning Distillation to transfer cross-modal spatial reasoning capabilities from teacher models to MLLMs through trajectories with explicit reasoning steps, enabling models to integrate GUI visual-spatial information with logical reasoning before action generation. The second stage, Deliberation Enhancement, refines the basic reasoner into a deliberative one using Reinforcement Learning. This stage introduces two approaches: Sub-goal Guidance, which rewards models for generating accurate intermediate sub-goals, and Error Recovery Scenario Construction, which creates failure-and-recovery training scenarios from identified prone-to-error steps. Experimental results show InfiGUI-R1 achieves strong performance in GUI grounding and trajectory tasks. Resources at https://github.com/Reallm-Labs/InfiGUI-R1.

Summary

AI-Generated Summary

PDF132April 22, 2025