ChatPaper.aiChatPaper

InfiGUI-R1: Avançando Agentes Multimodais de GUI de Atores Reativos para Raciocinadores Deliberativos

InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners

April 19, 2025
Autores: Yuhang Liu, Pengxiang Li, Congkai Xie, Xavier Hu, Xiaotian Han, Shengyu Zhang, Hongxia Yang, Fei Wu
cs.AI

Resumo

Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm impulsionado Agentes de Interface Gráfica do Usuário (GUI), mostrando potencial na automação de tarefas em dispositivos computacionais. Trabalhos recentes começaram a explorar o raciocínio em tarefas de GUI com resultados encorajadores. No entanto, muitas abordagens atuais dependem de modelos de raciocínio projetados manualmente, o que pode resultar em um raciocínio insuficientemente robusto e adaptativo para ambientes de GUI complexos. Enquanto isso, alguns agentes existentes continuam a operar como Atores Reativos, dependendo principalmente de raciocínio implícito que pode carecer de profundidade suficiente para tarefas de GUI que exigem planejamento e recuperação de erros. Argumentamos que o avanço desses agentes requer uma mudança de atuação reativa para atuação baseada em raciocínio deliberativo. Para facilitar essa transformação, introduzimos o InfiGUI-R1, um agente de GUI baseado em MLLM desenvolvido por meio de nosso framework Actor2Reasoner, uma abordagem de treinamento em duas etapas centrada no raciocínio, projetada para evoluir progressivamente os agentes de Atores Reativos para Raciocinadores Deliberativos. A primeira etapa, Injeção de Raciocínio, concentra-se em estabelecer um raciocinador básico. Empregamos a Destilação de Raciocínio Espacial para transferir capacidades de raciocínio espacial multimodal de modelos professores para MLLMs por meio de trajetórias com etapas de raciocínio explícitas, permitindo que os modelos integrem informações visuais-espaciais da GUI com raciocínio lógico antes da geração de ações. A segunda etapa, Aprimoramento da Deliberação, refina o raciocinador básico em um deliberativo usando Aprendizado por Reforço. Esta etapa introduz duas abordagens: Orientação de Sub-objetivos, que recompensa os modelos por gerar sub-objetivos intermediários precisos, e Construção de Cenários de Recuperação de Erros, que cria cenários de treinamento de falha e recuperação a partir de etapas identificadas como propensas a erros. Resultados experimentais mostram que o InfiGUI-R1 alcança um desempenho forte em tarefas de fundamentação de GUI e trajetórias. Recursos disponíveis em https://github.com/Reallm-Labs/InfiGUI-R1.
English
Multimodal Large Language Models (MLLMs) have powered Graphical User Interface (GUI) Agents, showing promise in automating tasks on computing devices. Recent works have begun exploring reasoning in GUI tasks with encouraging results. However, many current approaches rely on manually designed reasoning templates, which may result in reasoning that is not sufficiently robust and adaptive for complex GUI environments. Meanwhile, some existing agents continue to operate as Reactive Actors, relying primarily on implicit reasoning that may lack sufficient depth for GUI tasks demanding planning and error recovery. We argue that advancing these agents requires a shift from reactive acting towards acting based on deliberate reasoning. To facilitate this transformation, we introduce InfiGUI-R1, an MLLM-based GUI agent developed through our Actor2Reasoner framework, a reasoning-centric, two-stage training approach designed to progressively evolve agents from Reactive Actors to Deliberative Reasoners. The first stage, Reasoning Injection, focuses on establishing a basic reasoner. We employ Spatial Reasoning Distillation to transfer cross-modal spatial reasoning capabilities from teacher models to MLLMs through trajectories with explicit reasoning steps, enabling models to integrate GUI visual-spatial information with logical reasoning before action generation. The second stage, Deliberation Enhancement, refines the basic reasoner into a deliberative one using Reinforcement Learning. This stage introduces two approaches: Sub-goal Guidance, which rewards models for generating accurate intermediate sub-goals, and Error Recovery Scenario Construction, which creates failure-and-recovery training scenarios from identified prone-to-error steps. Experimental results show InfiGUI-R1 achieves strong performance in GUI grounding and trajectory tasks. Resources at https://github.com/Reallm-Labs/InfiGUI-R1.

Summary

AI-Generated Summary

PDF132April 22, 2025