ChatPaper.aiChatPaper

InfiGUI-R1 : Faire évoluer les agents d'interface graphique multimodaux d'acteurs réactifs vers des raisonneurs délibératifs

InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners

April 19, 2025
Auteurs: Yuhang Liu, Pengxiang Li, Congkai Xie, Xavier Hu, Xiaotian Han, Shengyu Zhang, Hongxia Yang, Fei Wu
cs.AI

Résumé

Les modèles de langage multimodaux de grande taille (MLLMs) ont propulsé les agents d'interface graphique (GUI), démontrant un potentiel prometteur pour l'automatisation des tâches sur les dispositifs informatiques. Les travaux récents ont commencé à explorer le raisonnement dans les tâches d'interface graphique avec des résultats encourageants. Cependant, de nombreuses approches actuelles reposent sur des modèles de raisonnement conçus manuellement, ce qui peut entraîner un raisonnement insuffisamment robuste et adaptatif pour des environnements d'interface graphique complexes. Par ailleurs, certains agents existants continuent de fonctionner comme des acteurs réactifs, s'appuyant principalement sur un raisonnement implicite qui peut manquer de profondeur pour les tâches d'interface graphique nécessitant de la planification et de la récupération d'erreurs. Nous soutenons que l'amélioration de ces agents nécessite une transition de l'action réactive vers une action basée sur un raisonnement délibéré. Pour faciliter cette transformation, nous présentons InfiGUI-R1, un agent d'interface graphique basé sur un MLLM développé grâce à notre framework Actor2Reasoner, une approche de formation en deux étapes centrée sur le raisonnement, conçue pour faire évoluer progressivement les agents d'acteurs réactifs à des raisonneurs délibératifs. La première étape, l'Injection de Raisonnement, se concentre sur l'établissement d'un raisonneur de base. Nous utilisons la Distillation de Raisonnement Spatial pour transférer les capacités de raisonnement spatial intermodal des modèles enseignants aux MLLMs à travers des trajectoires avec des étapes de raisonnement explicites, permettant aux modèles d'intégrer les informations visuelles-spatiales de l'interface graphique avec le raisonnement logique avant la génération d'actions. La deuxième étape, l'Amélioration de la Délibération, affine le raisonneur de base en un raisonneur délibératif en utilisant l'apprentissage par renforcement. Cette étape introduit deux approches : le Guidage par Sous-objectifs, qui récompense les modèles pour la génération de sous-objectifs intermédiaires précis, et la Construction de Scénarios de Récupération d'Erreurs, qui crée des scénarios d'entraînement d'échec-et-récupération à partir d'étapes identifiées comme sujettes à erreurs. Les résultats expérimentaux montrent qu'InfiGUI-R1 obtient de solides performances dans les tâches de fondation d'interface graphique et de trajectoire. Ressources disponibles sur https://github.com/Reallm-Labs/InfiGUI-R1.
English
Multimodal Large Language Models (MLLMs) have powered Graphical User Interface (GUI) Agents, showing promise in automating tasks on computing devices. Recent works have begun exploring reasoning in GUI tasks with encouraging results. However, many current approaches rely on manually designed reasoning templates, which may result in reasoning that is not sufficiently robust and adaptive for complex GUI environments. Meanwhile, some existing agents continue to operate as Reactive Actors, relying primarily on implicit reasoning that may lack sufficient depth for GUI tasks demanding planning and error recovery. We argue that advancing these agents requires a shift from reactive acting towards acting based on deliberate reasoning. To facilitate this transformation, we introduce InfiGUI-R1, an MLLM-based GUI agent developed through our Actor2Reasoner framework, a reasoning-centric, two-stage training approach designed to progressively evolve agents from Reactive Actors to Deliberative Reasoners. The first stage, Reasoning Injection, focuses on establishing a basic reasoner. We employ Spatial Reasoning Distillation to transfer cross-modal spatial reasoning capabilities from teacher models to MLLMs through trajectories with explicit reasoning steps, enabling models to integrate GUI visual-spatial information with logical reasoning before action generation. The second stage, Deliberation Enhancement, refines the basic reasoner into a deliberative one using Reinforcement Learning. This stage introduces two approaches: Sub-goal Guidance, which rewards models for generating accurate intermediate sub-goals, and Error Recovery Scenario Construction, which creates failure-and-recovery training scenarios from identified prone-to-error steps. Experimental results show InfiGUI-R1 achieves strong performance in GUI grounding and trajectory tasks. Resources at https://github.com/Reallm-Labs/InfiGUI-R1.

Summary

AI-Generated Summary

PDF132April 22, 2025