InfiGUI-R1: Fortschritt multimodaler GUI-Agenten von reaktiven Akteuren zu deliberativen Denkern
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners
April 19, 2025
Autoren: Yuhang Liu, Pengxiang Li, Congkai Xie, Xavier Hu, Xiaotian Han, Shengyu Zhang, Hongxia Yang, Fei Wu
cs.AI
Zusammenfassung
Multimodale Large Language Models (MLLMs) haben grafische Benutzeroberflächen-Agenten (GUI-Agenten) ermöglicht und zeigen Potenzial bei der Automatisierung von Aufgaben auf Computergeräten. Aktuelle Arbeiten haben begonnen, das logische Denken in GUI-Aufgaben zu erforschen, mit vielversprechenden Ergebnissen. Viele derzeitige Ansätze verlassen sich jedoch auf manuell entworfene Denkmuster, was zu einem nicht ausreichend robusten und anpassungsfähigen Denken in komplexen GUI-Umgebungen führen kann. Gleichzeitig agieren einige bestehende Agenten weiterhin als reaktive Akteure, die sich hauptsächlich auf implizites Denken stützen, das für GUI-Aufgaben, die Planung und Fehlerbehebung erfordern, möglicherweise nicht ausreichend tiefgreifend ist. Wir argumentieren, dass die Weiterentwicklung dieser Agenten einen Wechsel vom reaktiven Handeln hin zu einem Handeln basierend auf bewusstem Denken erfordert. Um diesen Wandel zu ermöglichen, stellen wir InfiGUI-R1 vor, einen MLLM-basierten GUI-Agenten, der durch unser Actor2Reasoner-Framework entwickelt wurde, einen denkzentrierten, zweistufigen Trainingsansatz, der darauf abzielt, Agenten schrittweise von reaktiven Akteuren zu deliberativen Denkern zu entwickeln. Die erste Stufe, Reasoning Injection, konzentriert sich auf die Etablierung eines grundlegenden Denkers. Wir verwenden Spatial Reasoning Distillation, um cross-modale räumliche Denkfähigkeiten von Lehrermodellen auf MLLMs durch Trajektorien mit expliziten Denkschritten zu übertragen, wodurch Modelle in der Lage sind, GUI-visuell-räumliche Informationen mit logischem Denken vor der Aktionsgenerierung zu integrieren. Die zweite Stufe, Deliberation Enhancement, verfeinert den grundlegenden Denker zu einem deliberativen Denker mithilfe von Reinforcement Learning. Diese Stufe führt zwei Ansätze ein: Sub-goal Guidance, das Modelle für die Generierung genauer Zwischenziele belohnt, und Error Recovery Scenario Construction, das Trainingsszenarien für Fehler und deren Behebung aus identifizierten fehleranfälligen Schritten erstellt. Experimentelle Ergebnisse zeigen, dass InfiGUI-R1 eine starke Leistung in GUI-Grounding- und Trajektorienaufgaben erzielt. Ressourcen unter https://github.com/Reallm-Labs/InfiGUI-R1.
English
Multimodal Large Language Models (MLLMs) have powered Graphical User
Interface (GUI) Agents, showing promise in automating tasks on computing
devices. Recent works have begun exploring reasoning in GUI tasks with
encouraging results. However, many current approaches rely on manually designed
reasoning templates, which may result in reasoning that is not sufficiently
robust and adaptive for complex GUI environments. Meanwhile, some existing
agents continue to operate as Reactive Actors, relying primarily on implicit
reasoning that may lack sufficient depth for GUI tasks demanding planning and
error recovery. We argue that advancing these agents requires a shift from
reactive acting towards acting based on deliberate reasoning. To facilitate
this transformation, we introduce InfiGUI-R1, an MLLM-based GUI agent developed
through our Actor2Reasoner framework, a reasoning-centric, two-stage training
approach designed to progressively evolve agents from Reactive Actors to
Deliberative Reasoners. The first stage, Reasoning Injection, focuses on
establishing a basic reasoner. We employ Spatial Reasoning Distillation to
transfer cross-modal spatial reasoning capabilities from teacher models to
MLLMs through trajectories with explicit reasoning steps, enabling models to
integrate GUI visual-spatial information with logical reasoning before action
generation. The second stage, Deliberation Enhancement, refines the basic
reasoner into a deliberative one using Reinforcement Learning. This stage
introduces two approaches: Sub-goal Guidance, which rewards models for
generating accurate intermediate sub-goals, and Error Recovery Scenario
Construction, which creates failure-and-recovery training scenarios from
identified prone-to-error steps. Experimental results show InfiGUI-R1 achieves
strong performance in GUI grounding and trajectory tasks. Resources at
https://github.com/Reallm-Labs/InfiGUI-R1.Summary
AI-Generated Summary