InfiGUIAgent: Ein multimodaler Generalist GUI-Agent mit nativer Argumentation und Reflexion

papers.abstract

Grafische Benutzeroberflächen (GUI)-Agenten, die von multimodalen großen Sprachmodellen (MLLMs) betrieben werden, haben ein großes Potenzial für die Automatisierung von Aufgaben auf Rechengeräten wie Computern und Mobiltelefonen gezeigt. Allerdings stehen bestehende Agenten vor Herausforderungen im mehrstufigen Denken und der Abhängigkeit von textuellen Annotationen, was ihre Wirksamkeit einschränkt. Wir stellen InfiGUIAgent vor, einen GUI-Agenten auf Basis von MLLMs, der mit einer zweistufigen überwachten Feinabstimmungspipeline trainiert wurde. Stufe 1 verbessert grundlegende Fähigkeiten wie GUI-Verständnis und Verankerung, während Stufe 2 hierarchisches Denken und Erwartungs-Reflexions-Denken-Fähigkeiten unter Verwendung synthetisierter Daten integriert, um den Agenten die nativen Denkfähigkeiten zu ermöglichen. InfiGUIAgent erzielt eine wettbewerbsfähige Leistung auf mehreren GUI-Benchmarks und hebt die Auswirkungen nativer Denkfähigkeiten auf die Verbesserung der GUI-Interaktion für Automatisierungsaufgaben hervor. Ressourcen sind verfügbar unter https://github.com/Reallm-Labs/InfiGUIAgent.

English

Graphical User Interface (GUI) Agents, powered by multimodal large language models (MLLMs), have shown great potential for task automation on computing devices such as computers and mobile phones. However, existing agents face challenges in multi-step reasoning and reliance on textual annotations, limiting their effectiveness. We introduce InfiGUIAgent, an MLLM-based GUI Agent trained with a two-stage supervised fine-tuning pipeline. Stage 1 enhances fundamental skills such as GUI understanding and grounding, while Stage 2 integrates hierarchical reasoning and expectation-reflection reasoning skills using synthesized data to enable native reasoning abilities of the agents. InfiGUIAgent achieves competitive performance on several GUI benchmarks, highlighting the impact of native reasoning skills in enhancing GUI interaction for automation tasks. Resources are available at https://github.com/Reallm-Labs/InfiGUIAgent.

InfiGUIAgent: Ein multimodaler Generalist GUI-Agent mit nativer Argumentation und Reflexion

InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection

papers.abstract

Support