InfiGUI-R1: Fortschritt multimodaler GUI-Agenten von reaktiven Akteuren zu deliberativen Denkern

papers.abstract

Multimodale Large Language Models (MLLMs) haben grafische Benutzeroberflächen-Agenten (GUI-Agenten) ermöglicht und zeigen Potenzial bei der Automatisierung von Aufgaben auf Computergeräten. Aktuelle Arbeiten haben begonnen, das logische Denken in GUI-Aufgaben zu erforschen, mit vielversprechenden Ergebnissen. Viele derzeitige Ansätze verlassen sich jedoch auf manuell entworfene Denkmuster, was zu einem nicht ausreichend robusten und anpassungsfähigen Denken in komplexen GUI-Umgebungen führen kann. Gleichzeitig agieren einige bestehende Agenten weiterhin als reaktive Akteure, die sich hauptsächlich auf implizites Denken stützen, das für GUI-Aufgaben, die Planung und Fehlerbehebung erfordern, möglicherweise nicht ausreichend tiefgreifend ist. Wir argumentieren, dass die Weiterentwicklung dieser Agenten einen Wechsel vom reaktiven Handeln hin zu einem Handeln basierend auf bewusstem Denken erfordert. Um diesen Wandel zu ermöglichen, stellen wir InfiGUI-R1 vor, einen MLLM-basierten GUI-Agenten, der durch unser Actor2Reasoner-Framework entwickelt wurde, einen denkzentrierten, zweistufigen Trainingsansatz, der darauf abzielt, Agenten schrittweise von reaktiven Akteuren zu deliberativen Denkern zu entwickeln. Die erste Stufe, Reasoning Injection, konzentriert sich auf die Etablierung eines grundlegenden Denkers. Wir verwenden Spatial Reasoning Distillation, um cross-modale räumliche Denkfähigkeiten von Lehrermodellen auf MLLMs durch Trajektorien mit expliziten Denkschritten zu übertragen, wodurch Modelle in der Lage sind, GUI-visuell-räumliche Informationen mit logischem Denken vor der Aktionsgenerierung zu integrieren. Die zweite Stufe, Deliberation Enhancement, verfeinert den grundlegenden Denker zu einem deliberativen Denker mithilfe von Reinforcement Learning. Diese Stufe führt zwei Ansätze ein: Sub-goal Guidance, das Modelle für die Generierung genauer Zwischenziele belohnt, und Error Recovery Scenario Construction, das Trainingsszenarien für Fehler und deren Behebung aus identifizierten fehleranfälligen Schritten erstellt. Experimentelle Ergebnisse zeigen, dass InfiGUI-R1 eine starke Leistung in GUI-Grounding- und Trajektorienaufgaben erzielt. Ressourcen unter https://github.com/Reallm-Labs/InfiGUI-R1.

English

Multimodal Large Language Models (MLLMs) have powered Graphical User Interface (GUI) Agents, showing promise in automating tasks on computing devices. Recent works have begun exploring reasoning in GUI tasks with encouraging results. However, many current approaches rely on manually designed reasoning templates, which may result in reasoning that is not sufficiently robust and adaptive for complex GUI environments. Meanwhile, some existing agents continue to operate as Reactive Actors, relying primarily on implicit reasoning that may lack sufficient depth for GUI tasks demanding planning and error recovery. We argue that advancing these agents requires a shift from reactive acting towards acting based on deliberate reasoning. To facilitate this transformation, we introduce InfiGUI-R1, an MLLM-based GUI agent developed through our Actor2Reasoner framework, a reasoning-centric, two-stage training approach designed to progressively evolve agents from Reactive Actors to Deliberative Reasoners. The first stage, Reasoning Injection, focuses on establishing a basic reasoner. We employ Spatial Reasoning Distillation to transfer cross-modal spatial reasoning capabilities from teacher models to MLLMs through trajectories with explicit reasoning steps, enabling models to integrate GUI visual-spatial information with logical reasoning before action generation. The second stage, Deliberation Enhancement, refines the basic reasoner into a deliberative one using Reinforcement Learning. This stage introduces two approaches: Sub-goal Guidance, which rewards models for generating accurate intermediate sub-goals, and Error Recovery Scenario Construction, which creates failure-and-recovery training scenarios from identified prone-to-error steps. Experimental results show InfiGUI-R1 achieves strong performance in GUI grounding and trajectory tasks. Resources at https://github.com/Reallm-Labs/InfiGUI-R1.

InfiGUI-R1: Fortschritt multimodaler GUI-Agenten von reaktiven Akteuren zu deliberativen Denkern

InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners

papers.abstract

Support