InfiGUI-R1: Avançando Agentes Multimodais de GUI de Atores Reativos para Raciocinadores Deliberativos
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners
April 19, 2025
Autores: Yuhang Liu, Pengxiang Li, Congkai Xie, Xavier Hu, Xiaotian Han, Shengyu Zhang, Hongxia Yang, Fei Wu
cs.AI
Resumo
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm impulsionado Agentes de Interface Gráfica do Usuário (GUI), mostrando potencial na automação de tarefas em dispositivos computacionais. Trabalhos recentes começaram a explorar o raciocínio em tarefas de GUI com resultados encorajadores. No entanto, muitas abordagens atuais dependem de modelos de raciocínio projetados manualmente, o que pode resultar em um raciocínio insuficientemente robusto e adaptativo para ambientes de GUI complexos. Enquanto isso, alguns agentes existentes continuam a operar como Atores Reativos, dependendo principalmente de raciocínio implícito que pode carecer de profundidade suficiente para tarefas de GUI que exigem planejamento e recuperação de erros. Argumentamos que o avanço desses agentes requer uma mudança de atuação reativa para atuação baseada em raciocínio deliberativo. Para facilitar essa transformação, introduzimos o InfiGUI-R1, um agente de GUI baseado em MLLM desenvolvido por meio de nosso framework Actor2Reasoner, uma abordagem de treinamento em duas etapas centrada no raciocínio, projetada para evoluir progressivamente os agentes de Atores Reativos para Raciocinadores Deliberativos. A primeira etapa, Injeção de Raciocínio, concentra-se em estabelecer um raciocinador básico. Empregamos a Destilação de Raciocínio Espacial para transferir capacidades de raciocínio espacial multimodal de modelos professores para MLLMs por meio de trajetórias com etapas de raciocínio explícitas, permitindo que os modelos integrem informações visuais-espaciais da GUI com raciocínio lógico antes da geração de ações. A segunda etapa, Aprimoramento da Deliberação, refina o raciocinador básico em um deliberativo usando Aprendizado por Reforço. Esta etapa introduz duas abordagens: Orientação de Sub-objetivos, que recompensa os modelos por gerar sub-objetivos intermediários precisos, e Construção de Cenários de Recuperação de Erros, que cria cenários de treinamento de falha e recuperação a partir de etapas identificadas como propensas a erros. Resultados experimentais mostram que o InfiGUI-R1 alcança um desempenho forte em tarefas de fundamentação de GUI e trajetórias. Recursos disponíveis em https://github.com/Reallm-Labs/InfiGUI-R1.
English
Multimodal Large Language Models (MLLMs) have powered Graphical User
Interface (GUI) Agents, showing promise in automating tasks on computing
devices. Recent works have begun exploring reasoning in GUI tasks with
encouraging results. However, many current approaches rely on manually designed
reasoning templates, which may result in reasoning that is not sufficiently
robust and adaptive for complex GUI environments. Meanwhile, some existing
agents continue to operate as Reactive Actors, relying primarily on implicit
reasoning that may lack sufficient depth for GUI tasks demanding planning and
error recovery. We argue that advancing these agents requires a shift from
reactive acting towards acting based on deliberate reasoning. To facilitate
this transformation, we introduce InfiGUI-R1, an MLLM-based GUI agent developed
through our Actor2Reasoner framework, a reasoning-centric, two-stage training
approach designed to progressively evolve agents from Reactive Actors to
Deliberative Reasoners. The first stage, Reasoning Injection, focuses on
establishing a basic reasoner. We employ Spatial Reasoning Distillation to
transfer cross-modal spatial reasoning capabilities from teacher models to
MLLMs through trajectories with explicit reasoning steps, enabling models to
integrate GUI visual-spatial information with logical reasoning before action
generation. The second stage, Deliberation Enhancement, refines the basic
reasoner into a deliberative one using Reinforcement Learning. This stage
introduces two approaches: Sub-goal Guidance, which rewards models for
generating accurate intermediate sub-goals, and Error Recovery Scenario
Construction, which creates failure-and-recovery training scenarios from
identified prone-to-error steps. Experimental results show InfiGUI-R1 achieves
strong performance in GUI grounding and trajectory tasks. Resources at
https://github.com/Reallm-Labs/InfiGUI-R1.Summary
AI-Generated Summary