InfiGUI-R1 : Faire évoluer les agents d'interface graphique multimodaux d'acteurs réactifs vers des raisonneurs délibératifs
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners
April 19, 2025
Auteurs: Yuhang Liu, Pengxiang Li, Congkai Xie, Xavier Hu, Xiaotian Han, Shengyu Zhang, Hongxia Yang, Fei Wu
cs.AI
Résumé
Les modèles de langage multimodaux de grande taille (MLLMs) ont propulsé les agents d'interface graphique (GUI), démontrant un potentiel prometteur pour l'automatisation des tâches sur les dispositifs informatiques. Les travaux récents ont commencé à explorer le raisonnement dans les tâches d'interface graphique avec des résultats encourageants. Cependant, de nombreuses approches actuelles reposent sur des modèles de raisonnement conçus manuellement, ce qui peut entraîner un raisonnement insuffisamment robuste et adaptatif pour des environnements d'interface graphique complexes. Par ailleurs, certains agents existants continuent de fonctionner comme des acteurs réactifs, s'appuyant principalement sur un raisonnement implicite qui peut manquer de profondeur pour les tâches d'interface graphique nécessitant de la planification et de la récupération d'erreurs. Nous soutenons que l'amélioration de ces agents nécessite une transition de l'action réactive vers une action basée sur un raisonnement délibéré. Pour faciliter cette transformation, nous présentons InfiGUI-R1, un agent d'interface graphique basé sur un MLLM développé grâce à notre framework Actor2Reasoner, une approche de formation en deux étapes centrée sur le raisonnement, conçue pour faire évoluer progressivement les agents d'acteurs réactifs à des raisonneurs délibératifs. La première étape, l'Injection de Raisonnement, se concentre sur l'établissement d'un raisonneur de base. Nous utilisons la Distillation de Raisonnement Spatial pour transférer les capacités de raisonnement spatial intermodal des modèles enseignants aux MLLMs à travers des trajectoires avec des étapes de raisonnement explicites, permettant aux modèles d'intégrer les informations visuelles-spatiales de l'interface graphique avec le raisonnement logique avant la génération d'actions. La deuxième étape, l'Amélioration de la Délibération, affine le raisonneur de base en un raisonneur délibératif en utilisant l'apprentissage par renforcement. Cette étape introduit deux approches : le Guidage par Sous-objectifs, qui récompense les modèles pour la génération de sous-objectifs intermédiaires précis, et la Construction de Scénarios de Récupération d'Erreurs, qui crée des scénarios d'entraînement d'échec-et-récupération à partir d'étapes identifiées comme sujettes à erreurs. Les résultats expérimentaux montrent qu'InfiGUI-R1 obtient de solides performances dans les tâches de fondation d'interface graphique et de trajectoire. Ressources disponibles sur https://github.com/Reallm-Labs/InfiGUI-R1.
English
Multimodal Large Language Models (MLLMs) have powered Graphical User
Interface (GUI) Agents, showing promise in automating tasks on computing
devices. Recent works have begun exploring reasoning in GUI tasks with
encouraging results. However, many current approaches rely on manually designed
reasoning templates, which may result in reasoning that is not sufficiently
robust and adaptive for complex GUI environments. Meanwhile, some existing
agents continue to operate as Reactive Actors, relying primarily on implicit
reasoning that may lack sufficient depth for GUI tasks demanding planning and
error recovery. We argue that advancing these agents requires a shift from
reactive acting towards acting based on deliberate reasoning. To facilitate
this transformation, we introduce InfiGUI-R1, an MLLM-based GUI agent developed
through our Actor2Reasoner framework, a reasoning-centric, two-stage training
approach designed to progressively evolve agents from Reactive Actors to
Deliberative Reasoners. The first stage, Reasoning Injection, focuses on
establishing a basic reasoner. We employ Spatial Reasoning Distillation to
transfer cross-modal spatial reasoning capabilities from teacher models to
MLLMs through trajectories with explicit reasoning steps, enabling models to
integrate GUI visual-spatial information with logical reasoning before action
generation. The second stage, Deliberation Enhancement, refines the basic
reasoner into a deliberative one using Reinforcement Learning. This stage
introduces two approaches: Sub-goal Guidance, which rewards models for
generating accurate intermediate sub-goals, and Error Recovery Scenario
Construction, which creates failure-and-recovery training scenarios from
identified prone-to-error steps. Experimental results show InfiGUI-R1 achieves
strong performance in GUI grounding and trajectory tasks. Resources at
https://github.com/Reallm-Labs/InfiGUI-R1.Summary
AI-Generated Summary