InfiGUI-R1: Multimodale GUI-agents vooruithelpen van reactieve actoren naar beredeneerde beslissers
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners
April 19, 2025
Auteurs: Yuhang Liu, Pengxiang Li, Congkai Xie, Xavier Hu, Xiaotian Han, Shengyu Zhang, Hongxia Yang, Fei Wu
cs.AI
Samenvatting
Multimodale Large Language Models (MLLMs) hebben Graphical User Interface (GUI)-agents aangedreven, waarbij ze veelbelovend zijn in het automatiseren van taken op rekenapparaten. Recente werken hebben begonnen met het verkennen van redeneren in GUI-taken met bemoedigende resultaten. Veel huidige benaderingen vertrouwen echter op handmatig ontworpen redeneersjablonen, wat kan leiden tot redenering die niet voldoende robuust en adaptief is voor complexe GUI-omgevingen. Tegelijkertijd blijven sommige bestaande agents opereren als Reactieve Acteurs, waarbij ze voornamelijk vertrouwen op impliciete redenering die mogelijk onvoldoende diepgang heeft voor GUI-taken die planning en foutherstel vereisen. Wij stellen dat het vooruitgang van deze agents een verschuiving vereist van reactief handelen naar handelen gebaseerd op weloverwogen redeneren. Om deze transformatie te faciliteren, introduceren we InfiGUI-R1, een MLLM-gebaseerd GUI-agent ontwikkeld via ons Actor2Reasoner-framework, een redeneringsgerichte, tweefasige trainingsaanpak ontworpen om agents progressief te laten evolueren van Reactieve Acteurs naar Weloverwogen Redeneerders. De eerste fase, Redeneringsinjectie, richt zich op het opzetten van een basisredeneerder. We gebruiken Spatial Reasoning Distillation om cross-modale ruimtelijke redeneervaardigheden over te dragen van leraarmodellen naar MLLMs via trajecten met expliciete redeneerstappen, waardoor modellen GUI visueel-ruimtelijke informatie kunnen integreren met logisch redeneren voordat acties worden gegenereerd. De tweede fase, Deliberatieverbetering, verfijnt de basisredeneerder tot een weloverwogen redeneerder met behulp van Reinforcement Learning. Deze fase introduceert twee benaderingen: Sub-doelbegeleiding, die modellen beloont voor het genereren van nauwkeurige tussenliggende sub-doelen, en Foutherstelscenarioconstructie, die trainingsscenario's voor falen en herstel creëert vanuit geïdentificeerde foutgevoelige stappen. Experimentele resultaten tonen aan dat InfiGUI-R1 sterke prestaties levert in GUI-gronding en trajecttaken. Bronnen zijn beschikbaar op https://github.com/Reallm-Labs/InfiGUI-R1.
English
Multimodal Large Language Models (MLLMs) have powered Graphical User
Interface (GUI) Agents, showing promise in automating tasks on computing
devices. Recent works have begun exploring reasoning in GUI tasks with
encouraging results. However, many current approaches rely on manually designed
reasoning templates, which may result in reasoning that is not sufficiently
robust and adaptive for complex GUI environments. Meanwhile, some existing
agents continue to operate as Reactive Actors, relying primarily on implicit
reasoning that may lack sufficient depth for GUI tasks demanding planning and
error recovery. We argue that advancing these agents requires a shift from
reactive acting towards acting based on deliberate reasoning. To facilitate
this transformation, we introduce InfiGUI-R1, an MLLM-based GUI agent developed
through our Actor2Reasoner framework, a reasoning-centric, two-stage training
approach designed to progressively evolve agents from Reactive Actors to
Deliberative Reasoners. The first stage, Reasoning Injection, focuses on
establishing a basic reasoner. We employ Spatial Reasoning Distillation to
transfer cross-modal spatial reasoning capabilities from teacher models to
MLLMs through trajectories with explicit reasoning steps, enabling models to
integrate GUI visual-spatial information with logical reasoning before action
generation. The second stage, Deliberation Enhancement, refines the basic
reasoner into a deliberative one using Reinforcement Learning. This stage
introduces two approaches: Sub-goal Guidance, which rewards models for
generating accurate intermediate sub-goals, and Error Recovery Scenario
Construction, which creates failure-and-recovery training scenarios from
identified prone-to-error steps. Experimental results show InfiGUI-R1 achieves
strong performance in GUI grounding and trajectory tasks. Resources at
https://github.com/Reallm-Labs/InfiGUI-R1.Summary
AI-Generated Summary