InfiGUI-R1: Развитие мультимодальных GUI-агентов от реактивных исполнителей до обдумывающих систем
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners
April 19, 2025
Авторы: Yuhang Liu, Pengxiang Li, Congkai Xie, Xavier Hu, Xiaotian Han, Shengyu Zhang, Hongxia Yang, Fei Wu
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLM) стали основой для агентов с графическим пользовательским интерфейсом (GUI), демонстрируя потенциал в автоматизации задач на вычислительных устройствах. Недавние исследования начали изучать рассуждения в задачах, связанных с GUI, с обнадеживающими результатами. Однако многие современные подходы полагаются на вручную разработанные шаблоны рассуждений, что может приводить к недостаточно устойчивым и адаптивным рассуждениям в сложных GUI-средах. В то же время некоторые существующие агенты продолжают функционировать как реактивные акторы, полагаясь в основном на неявные рассуждения, которые могут быть недостаточно глубокими для задач GUI, требующих планирования и восстановления после ошибок. Мы утверждаем, что для развития этих агентов необходим переход от реактивного поведения к действиям, основанным на осознанных рассуждениях. Для облегчения этой трансформации мы представляем InfiGUI-R1, GUI-агента на основе MLLM, разработанного с использованием нашего фреймворка Actor2Reasoner — двухэтапного подхода к обучению, ориентированного на рассуждения и предназначенного для постепенного превращения агентов из реактивных акторов в осознанных рассудителей. Первый этап, Внедрение Рассуждений, сосредоточен на создании базового рассудителя. Мы используем Дистилляцию Пространственных Рассуждений для передачи кросс-модальных способностей к пространственным рассуждениям от моделей-учителей к MLLM через траектории с явными шагами рассуждений, что позволяет моделям интегрировать визуально-пространственную информацию GUI с логическими рассуждениями перед генерацией действий. Второй этап, Улучшение Осознанности, совершенствует базового рассудителя в осознанного с использованием обучения с подкреплением. На этом этапе вводятся два подхода: Руководство Подцелями, которое вознаграждает модели за генерацию точных промежуточных подцелей, и Построение Сценариев Восстановления после Ошибок, которое создает сценарии обучения на основе выявленных шагов, склонных к ошибкам. Экспериментальные результаты показывают, что InfiGUI-R1 демонстрирует высокую производительность в задачах заземления GUI и работы с траекториями. Ресурсы доступны по адресу https://github.com/Reallm-Labs/InfiGUI-R1.
English
Multimodal Large Language Models (MLLMs) have powered Graphical User
Interface (GUI) Agents, showing promise in automating tasks on computing
devices. Recent works have begun exploring reasoning in GUI tasks with
encouraging results. However, many current approaches rely on manually designed
reasoning templates, which may result in reasoning that is not sufficiently
robust and adaptive for complex GUI environments. Meanwhile, some existing
agents continue to operate as Reactive Actors, relying primarily on implicit
reasoning that may lack sufficient depth for GUI tasks demanding planning and
error recovery. We argue that advancing these agents requires a shift from
reactive acting towards acting based on deliberate reasoning. To facilitate
this transformation, we introduce InfiGUI-R1, an MLLM-based GUI agent developed
through our Actor2Reasoner framework, a reasoning-centric, two-stage training
approach designed to progressively evolve agents from Reactive Actors to
Deliberative Reasoners. The first stage, Reasoning Injection, focuses on
establishing a basic reasoner. We employ Spatial Reasoning Distillation to
transfer cross-modal spatial reasoning capabilities from teacher models to
MLLMs through trajectories with explicit reasoning steps, enabling models to
integrate GUI visual-spatial information with logical reasoning before action
generation. The second stage, Deliberation Enhancement, refines the basic
reasoner into a deliberative one using Reinforcement Learning. This stage
introduces two approaches: Sub-goal Guidance, which rewards models for
generating accurate intermediate sub-goals, and Error Recovery Scenario
Construction, which creates failure-and-recovery training scenarios from
identified prone-to-error steps. Experimental results show InfiGUI-R1 achieves
strong performance in GUI grounding and trajectory tasks. Resources at
https://github.com/Reallm-Labs/InfiGUI-R1.Summary
AI-Generated Summary